【ACMMM2022最佳论文】搜索导向的短视频描述 - 专知VIP

会员服务 ·

4

视频描述 · 最佳论文 · ACM Multimedia ·

2022 年 10 月 21 日

【ACMMM2022最佳论文】搜索导向的短视频描述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文地址：https://dl.acm.org/doi/pdf/10.1145/3503161.3548180

该获奖论文介绍如下：

这篇论文主要研究如何为“没有视频描述的短视频”自动生成一个文本描述的问题。为了给38%没有文字描述的短视频自动生成有一个抽象的文本描述，研究者通过建立相关模型，从针对用户搜索需求的角度自动生成文本去描述一个短视频，以满足用户搜索视频的多样化需求。

以往工作致力于以内容为导向的视频字幕工作，从创作者的角度生成相关的句子来描述给定视频的视觉内容。这项工作的目标则是以搜索为导向，通过用户的角度生成关键词来总结给定的视频。除了相关性，多样性对于从不同角度描述用户的搜索意向也至关重要。

为此，研究团队设计了一个大规模多模态的预训练网络，通过五个任务来加强下游视频表征，该网络在研究团队收集的 1100 万个微视频上训练。之后，研究团队提出了一种基于流的多样化字幕模型，以根据用户的搜索需求生成不同的字幕。该模型通过重建损失在先验和后验之间的KL分歧进行优化。通过构建由 69 万个<查询，短视频>对组成的黄金数据集合，作者验证了他们的模型，实验结果也证明了其优越性。据了解，这项工作所研发的“短视频摘要生成算法”在快手得到落地，已平稳运行半年，每日处理约 3 千万个短视频。

参考链接：

https://mp.weixin.qq.com/s/dkKOmwta1olBAlrsSwUhOg

成为VIP会员查看完整内容

14

相关内容

视频描述

近期必读的5篇顶会SIGIR 2021【反事实推理】相关论文和代码

专知会员服务

23+阅读 · 2021年7月25日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

专知会员服务

91+阅读 · 2020年7月23日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

专知会员服务

18+阅读 · 2019年11月30日

CIKM 2022最佳论文提名：证据感知的文档级关系抽取方法

CIKM 2022最佳论文提名：证据感知的文档级关系抽取方法

PaperWeekly

0+阅读 · 2022年11月15日

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

PaperWeekly

2+阅读 · 2022年10月24日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

KDD 2022 | 短视频相关推荐新SOTA！快手&人大提出特征感知多样性重排算法

KDD 2022 | 短视频相关推荐新SOTA！快手&人大提出特征感知多样性重排算法

PaperWeekly

0+阅读 · 2022年8月17日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合异构信息的低秩分解推荐模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多元异构信息融合的个性化推荐系统研究

国家自然科学基金

6+阅读 · 2012年12月31日

面向用户的视频自动标注关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

三维模型语义分析与检索研究

国家自然科学基金

2+阅读 · 2008年12月31日

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

Arxiv

0+阅读 · 2022年12月1日

Part-based Face Recognition with Vision Transformers

Arxiv

0+阅读 · 2022年11月30日

ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format

Arxiv

0+阅读 · 2022年11月30日

Dynamic neighbourhood optimisation for task allocation using multi-agent

Arxiv

101+阅读 · 2022年5月11日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

VIP会员

相关主题

相关VIP内容

近期必读的5篇顶会SIGIR 2021【反事实推理】相关论文和代码

专知会员服务

23+阅读 · 2021年7月25日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

专知会员服务

91+阅读 · 2020年7月23日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

专知会员服务

18+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

CIKM 2022最佳论文提名：证据感知的文档级关系抽取方法

CIKM 2022最佳论文提名：证据感知的文档级关系抽取方法

PaperWeekly

0+阅读 · 2022年11月15日

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

PaperWeekly

2+阅读 · 2022年10月24日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

KDD 2022 | 短视频相关推荐新SOTA！快手&人大提出特征感知多样性重排算法

KDD 2022 | 短视频相关推荐新SOTA！快手&人大提出特征感知多样性重排算法

PaperWeekly

0+阅读 · 2022年8月17日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

相关基金

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合异构信息的低秩分解推荐模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多元异构信息融合的个性化推荐系统研究

国家自然科学基金

6+阅读 · 2012年12月31日

面向用户的视频自动标注关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

三维模型语义分析与检索研究

国家自然科学基金

2+阅读 · 2008年12月31日

相关论文

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

Arxiv

0+阅读 · 2022年12月1日

Part-based Face Recognition with Vision Transformers

Arxiv

0+阅读 · 2022年11月30日

ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format

Arxiv

0+阅读 · 2022年11月30日

Dynamic neighbourhood optimisation for task allocation using multi-agent

Arxiv

101+阅读 · 2022年5月11日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

微信扫码咨询专知VIP会员