利用多语言知识转让改进视频检索 (Improving video retrieval using multilingual knowledge transfer)

Video retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MKTVR, that utilizes knowledge transfer from a multilingual model to boost the performance of video retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual video-text pairs. We then use this data to learn a video-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on four English video retrieval datasets such as MSRVTT, MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach achieves state-of-the-art results on all datasets outperforming previous models. Finally, we also evaluate our model on a multilingual video-retrieval dataset encompassing six languages and show that our model outperforms previous multilingual video retrieval models in a zero-shot setting.

翻译：视频检索在开发视觉语言模型方面取得了巨大进展。但是,进一步改进这些模型需要额外的贴标签数据,这是一项巨大的手工工作。在本文中,我们提出了一个MKTVR框架,利用多语种模型的知识转让来提高视频检索的性能。我们首先使用最先进的机器翻译模型来构建假的地面实况多语种视频文本配对。我们然后利用这些数据来学习视频文本代表,其中英语和非英语文本查询在基于预先培训的多语种模型的共同嵌入空间中得到代表。我们评估了我们提议的关于四个英语视频检索数据集(如MSRVTT、MSVD、DiDemo和Charades)的方法。实验结果显示,我们的方法在所有数据集上取得了比以往模型更好的最新结果。最后,我们还评估了我们关于包含六种语言的多语言视频检索数据集的模型,并显示我们的模型比以前在零镜头设置的多语种视频检索模型要好。

相关内容

MoDELS

关注 43

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

专知会员服务

7+阅读 · 2022年3月19日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日