Existing text-video retrieval solutions are, in essence, discriminant models focused on maximizing the conditional likelihood, i.e., p(candidates|query). While straightforward, this de facto paradigm overlooks the underlying data distribution p(query), which makes it challenging to identify out-of-distribution data. To address this limitation, we creatively tackle this task from a generative viewpoint and model the correlation between the text and the video as their joint probability p(candidates,query). This is accomplished through a diffusion-based text-video retrieval framework (DiffusionRet), which models the retrieval task as a process of gradually generating joint distribution from noise. During training, DiffusionRet is optimized from both the generation and discrimination perspectives, with the generator being optimized by generation loss and the feature extractor trained with contrastive loss. In this way, DiffusionRet cleverly leverages the strengths of both generative and discriminative methods. Extensive experiments on five commonly used text-video retrieval benchmarks, including MSRVTT, LSMDC, MSVD, ActivityNet Captions, and DiDeMo, with superior performances, justify the efficacy of our method. More encouragingly, without any modification, DiffusionRet even performs well in out-domain retrieval settings. We believe this work brings fundamental insights into the related fields. Code will be available at https://github.com/jpthu17/DiffusionRet.


翻译:现有的文本-视频检索方法本质上是基于判别模型的,其主要关注点在于最大化条件概率,即p(候选结果|查询)。虽然看起来直接,但这种事实上的范例忽略了数据分布 p(查询),这导致很难确定来自外部数据的情况。为了解决这一局限性,我们创造性地从生成视角来处理这个任务,并将文本和视频之间的关联建模为它们的联合概率p(候选结果, 查询)。这通过基于扩散模型的文本-视频检索框架(DiffusionRet)来实现,它将检索任务建模为逐渐从噪声生成联合分布的过程。在训练过程中,DiffusionRet从生成和判别的角度进行优化,生成器通过生成损失进行优化,而特征提取器则使用对比损失进行训练。这样,DiffusionRet geschickt地利用了生成方法和判别方法的优点。在五个常用的文本-视频检索基准测试中,包括MSRVTT,LSMDC,MSVD,ActivityNet Captions和DiDeMo上进行了大量实验,表现优异,证明了我们方法的有效性。更令人鼓舞的是,即使在域外检索环境中,DiffusionRet也能表现出良好的性能,而且没有任何修改。我们认为这项工作为相关领域带来了基本的见解。代码将在https://github.com/jpthu17/DiffusionRet上发布。

1
下载
关闭预览

相关内容

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
197+阅读 · 2019年9月30日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
44+阅读 · 2022年9月6日
VIP会员
相关VIP内容
AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
197+阅读 · 2019年9月30日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员