论文地址:https://dl.acm.org/doi/pdf/10.1145/3503161.3548180

该获奖论文介绍如下:

这篇论文主要研究如何为“没有视频描述的短视频”自动生成一个文本描述的问题。为了给38%没有文字描述的短视频自动生成有一个抽象的文本描述,研究者通过建立相关模型,从针对用户搜索需求的角度自动生成文本去描述一个短视频,以满足用户搜索视频的多样化需求。

以往工作致力于以内容为导向的视频字幕工作,从创作者的角度生成相关的句子来描述给定视频的视觉内容。这项工作的目标则是以搜索为导向,通过用户的角度生成关键词来总结给定的视频。除了相关性,多样性对于从不同角度描述用户的搜索意向也至关重要。

为此,研究团队设计了一个大规模多模态的预训练网络,通过五个任务来加强下游视频表征,该网络在研究团队收集的 1100 万个微视频上训练。之后,研究团队提出了一种基于流的多样化字幕模型,以根据用户的搜索需求生成不同的字幕。该模型通过重建损失在先验和后验之间的KL分歧进行优化。通过构建由 69 万个<查询,短视频>对组成的黄金数据集合,作者验证了他们的模型,实验结果也证明了其优越性。 据了解,这项工作所研发的“短视频摘要生成算法”在快手得到落地,已平稳运行半年,每日处理约 3 千万个短视频。

参考链接:

https://mp.weixin.qq.com/s/dkKOmwta1olBAlrsSwUhOg

成为VIP会员查看完整内容
13

相关内容

【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
29+阅读 · 2022年3月28日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
33+阅读 · 2020年9月2日
专知会员服务
10+阅读 · 2020年9月1日
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
88+阅读 · 2020年7月23日
AAAI 2022|中科院自动化所新作速览!
新智元
1+阅读 · 2021年12月24日
ACL’21 | 对话系统也要进军多模态了!
夕小瑶的卖萌屋
0+阅读 · 2021年8月30日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
14+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月30日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
Arxiv
26+阅读 · 2018年9月21日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员