多级语言与视觉集成用于文本-剪辑检索(文章有视频Demo,文末有源码)

2019 年 4 月 2 日 计算机视觉战队

4月,是不冷不热的季节,可以肆无忌惮的去游玩,可以敞开心怀去做自己想做的事情,比如科研,灵感来源于大自然,一不小心在樱花树下Get了一个新颖的想法,所以,我们要用乐观的心态去学习、科研和生活。

不要说话

陈奕迅 - MOOV Music 1

今天我们给大家带来的内容,还是比较新颖、比较接近于生活,未来的科技无所不能。

简   要

1

视频检索,在耨写领域还是很受大家的关注,因为他可以减少很多劳动力物力及宝贵时间。

在基于文本的视频活动检索问题的基础上,给定一个描述活动的句子,我们的任务就是从未修剪的视频中检索匹配剪辑。好比CV中视频中人脸的检索,都是很重要的技术之一。

为了捕捉文本和视频中的固有结构,新技术就引入了一个多级模型,该模型比以前的工作更早、更紧密地集成了视觉和语言特征。

首先,在早期生成剪辑建议时注入文本功能,以帮助消除不可能的剪辑,从而加快处理速度并提高性能。其次,为了学习用于检索的细粒度相似性度量,在递归神经网络中利用视觉特征对词级查询语句的处理进行调制。通过添加查询重新生成作为辅助任务,还使用了多任务损失。

最终在两个具有挑战性的基准上,新技术的方法明显优于以前的技术。

2

方   法

新技术,提出了一种基于输入语言查询或文本到剪辑任务的时态活动定位与检索的新方法。

关键思想是在计算匹配之前更加紧密地集成语言和视觉,使用早期的融合方案、查询专用提案以及重新生成标题的多任务公式。

Query-Guided Segment Proposal Network

对于视频中的无约束定位,重要的是要生成可变长度的候选时态段以供进一步处理。

我新技术没有使用手工启发式或计算昂贵的多尺度滑动窗口,而是使用了一个学习的段落候选网络(SPN:learned segment proposal network),类似于用于行动定位的R-C3D中使用的网络。SPN首先使用3D卷积网络(C3D)对输入视频中的所有帧进行编码;然后,通过预测一组预定义的锚段(anchor segments)的相对偏移量,得到可变长度的分段候选。候选特征由三维兴趣区域池化生成。

上图就显示了查询引导的SPN的结构。原始SPN显示在底部,通过汇集嵌入LSTM语句的隐藏状态(在下面进行描述),将每个查询语句S嵌入到特征向量f(S)中。然后,对于每个时间位置,通过获取视频特征和f(S)的内积,并通过tanh激活来计算注意力权重。在每个时间位置上的注意力权重与所有信道上的相应视频特征相乘。当有多个查询时,最大限度地将权重集中在查询维度上。

Early Fusion Retrieval Model

SPN的输出是一组可能包含相关活动的时态段,以及它们的集合C3D特征。接下来,需要一个检索模型来找到与查询最匹配的片段。

如上图所示,剪辑的集合C3D特征连同查询语句作为输入到两层LSTM。LSTM的第一层处理句子中的单词。在第二层,视觉特征嵌入作为输入在每一步,以及隐藏状态的句子嵌入LSTM。最后的隐藏状态通过额外的层来预测标量相似值。

我们可以注意到,虽然新技术的方法确实增加了模型中可学习参数的数量,但它也给相似度度量带来了额外的结构。这来自于句子中的每个单词现在能够与视觉特征交互,从而使模型能够学习一种可能不同的方法来关联每个单词和视觉特征。没有显式地使用注意机制来执行这种行为,而是让LSTM以数据驱动的方式学习。新技术的检索模型是一个早期的融合模型,其中视觉特征和语言特征的处理是相互交织的,而不是孤立的。

Multi-Task Loss

在定义了检索模型之后,现在寻求从密切相关任务的训练中获得额外的好处。

具体而言,新技术增加了一个标题损失,它可以作为模型的验证步骤,也就是说,我们应该能够从检索到的视频剪辑中重新生成查询语句。字幕也被证明可以提高基于图像的多模态检索任务的性能。

此外,还观察到字幕模型可以隐式地学习特征和注意力机制,从而将时空区域与标题中的单词联系起来。至于实现,文本到剪辑任务中的配对语句剪辑注释格式允许我们轻松地将字幕功能添加到LSTM模型中。

实   验

3

表1 在Charades-STA数据集上的结

表图2 视频输入查询与它们的N个真实时间段之间相似性分数的可视化

图3 在Charades-STA上的检索案例

图4 在ActivityNet Captions上检索案例

示例检索的定性可视化结果,在Charades-STA数据集(图3)和ActivitynetCaptions数据集(图4)上。与查询相对应的GT剪辑用黑色箭头标记。正确的预测(预测片段的时间与GT的IOU超过0.5)标记为绿色,不正确的预测标记为红色。开始和结束时间以秒为单位。

看图片,可能看不出什么精髓所在,接下来,我们展现一段视频Demo,让该领域的同学有进一步的了解。

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

登录查看更多
1

相关内容

【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
24+阅读 · 2020年5月7日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
12+阅读 · 2020年4月28日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
角网络——目标检测(文后有paper地址及源码)
计算机视觉战队
5+阅读 · 2019年6月5日
判别特征的学习方法用于人脸识别(文末源码)
计算机视觉战队
7+阅读 · 2019年3月28日
干货 | 快速端到端嵌入学习用于视频中的目标分割
计算机视觉战队
10+阅读 · 2019年3月27日
干货 | 万物皆可「计算机视觉」
AI科技评论
6+阅读 · 2019年2月10日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
17+阅读 · 2018年12月20日
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
6+阅读 · 2018年3月31日
Arxiv
5+阅读 · 2018年2月26日
VIP会员
相关资讯
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
角网络——目标检测(文后有paper地址及源码)
计算机视觉战队
5+阅读 · 2019年6月5日
判别特征的学习方法用于人脸识别(文末源码)
计算机视觉战队
7+阅读 · 2019年3月28日
干货 | 快速端到端嵌入学习用于视频中的目标分割
计算机视觉战队
10+阅读 · 2019年3月27日
干货 | 万物皆可「计算机视觉」
AI科技评论
6+阅读 · 2019年2月10日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
17+阅读 · 2018年12月20日
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
Top
微信扫码咨询专知VIP会员