[ICCV2021]自适应多模态选取框架用于视频理解 - 专知VIP

会员服务 ·

4

ICCV 2021 · 视频理解 · 论文 ·

2021 年 10 月 30 日

[ICCV2021]自适应多模态选取框架用于视频理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

对于视频理解任务而言，多种模态的输入数据往往会携带大量的冗余信息，除了普通的RGB帧数据，视频多模态分析还会用到音频、光流和深度图等模态的数据，但是对于某些时刻，其他模态的数据不论是数据获取还是前向传播都会有更高的计算性能要求，这对于一些即时的多模态应用是不合理的。

基于此，本文设计了一种自适应的多模态学习框架对一段视频的不同片段选取最为合适的模态数据作为输入，在保证识别精度的同时，获得了较为明显的计算量节省效果。本文的整体框架包含了一个轻量的策略级网络Policy Network和一个识别网络Recognition Network，其中策略网络的作用是对视频序列的每个模态片段计算二进制策略向量，用来判断是否保留当前模态的数据进行后续的识别。

识别网络由多个子网络构成，分别对上一步选取得到的多模态数据进行特征提取和后融合得到识别结果。整体网络联合训练，在测试阶段，首先将输入多模态视频片段送入策略网络，其输出决定用于给定片段的正确模态，然后将选择的输入模态路由到识别网络中的相应的子网络以生成片段级预测。

最后，网络将所有片段级预测平均作为视频级预测。与普通的视频理解模型相比，轻量级策略网络（本文使用的是MobileNetV2）产生的额外计算成本可以忽略不计。

经过一系列的实验表明，本文方法在四个标准数据集上都取得了较好的效果。

成为VIP会员查看完整内容

17

相关内容

ICCV 2021

【AAAI2022】LGD：用于物体检测的标签引导自蒸馏

【AAAI2022】LGD：用于物体检测的标签引导自蒸馏

专知会员服务

14+阅读 · 2022年1月2日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

10+阅读 · 2021年12月10日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

14+阅读 · 2021年10月4日

【ICCV2021】自监督蒸馏的长尾视觉识别

专知会员服务

23+阅读 · 2021年9月16日

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

35+阅读 · 2021年9月15日

【CVPR2021】基于时序上下文聚合的动作提名修正网络

专知会员服务

7+阅读 · 2021年4月4日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

13+阅读 · 2021年1月14日

KDD20 | AM-GCN：自适应多通道图卷积网络

KDD20 | AM-GCN：自适应多通道图卷积网络

专知会员服务

38+阅读 · 2020年8月26日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

21+阅读 · 2020年8月12日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

52+阅读 · 2020年3月17日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

9+阅读 · 2021年4月14日

KDD20 | AM-GCN：自适应多通道图卷积网络

KDD20 | AM-GCN：自适应多通道图卷积网络

专知

8+阅读 · 2020年8月26日

CVPR 2020丨更准确的弱监督视频动作定位，从生成注意力模型出发

CVPR 2020丨更准确的弱监督视频动作定位，从生成注意力模型出发

微软研究院AI头条

4+阅读 · 2020年5月8日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

泡泡机器人SLAM

5+阅读 · 2018年5月31日

CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet：可端到端学习视频的运动表征

CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet：可端到端学习视频的运动表征

极市平台

8+阅读 · 2018年4月13日

CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL：可显著增强人脸识别模型的判别能力

CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL：可显著增强人脸识别模型的判别能力

机器之心

11+阅读 · 2018年3月26日

【重磅】自适应无监督学习的特征提取方法

【重磅】自适应无监督学习的特征提取方法

中国自动化学会

7+阅读 · 2018年2月6日

NIPS 2017论文提出深度离散哈希算法，可用于图像检索

NIPS 2017论文提出深度离散哈希算法，可用于图像检索

极市平台

7+阅读 · 2017年11月7日

Query Understanding via Intent Description Generation

Arxiv

9+阅读 · 2020年8月25日

Scene-based Factored Attention for Image Captioning

Arxiv

4+阅读 · 2019年8月7日

A Fast Content-Based Image Retrieval Method Using Deep Visual Features

Arxiv

3+阅读 · 2019年8月5日

Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning

Arxiv

3+阅读 · 2019年6月11日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

14+阅读 · 2018年9月19日

Image Captioning based on Deep Reinforcement Learning

Image Captioning based on Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年9月13日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Entity-aware Image Caption Generation

Arxiv

7+阅读 · 2018年4月21日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

Fast Interactive Image Retrieval using large-scale unlabeled data

Arxiv

4+阅读 · 2018年2月12日

VIP会员

相关主题

相关VIP内容

【AAAI2022】LGD：用于物体检测的标签引导自蒸馏

【AAAI2022】LGD：用于物体检测的标签引导自蒸馏

专知会员服务

14+阅读 · 2022年1月2日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

10+阅读 · 2021年12月10日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

14+阅读 · 2021年10月4日

【ICCV2021】自监督蒸馏的长尾视觉识别

专知会员服务

23+阅读 · 2021年9月16日

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

35+阅读 · 2021年9月15日

【CVPR2021】基于时序上下文聚合的动作提名修正网络

专知会员服务

7+阅读 · 2021年4月4日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

13+阅读 · 2021年1月14日

KDD20 | AM-GCN：自适应多通道图卷积网络

KDD20 | AM-GCN：自适应多通道图卷积网络

专知会员服务

38+阅读 · 2020年8月26日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

21+阅读 · 2020年8月12日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

52+阅读 · 2020年3月17日

热门VIP内容

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

9+阅读 · 2021年4月14日

KDD20 | AM-GCN：自适应多通道图卷积网络

KDD20 | AM-GCN：自适应多通道图卷积网络

专知

8+阅读 · 2020年8月26日

CVPR 2020丨更准确的弱监督视频动作定位，从生成注意力模型出发

CVPR 2020丨更准确的弱监督视频动作定位，从生成注意力模型出发

微软研究院AI头条

4+阅读 · 2020年5月8日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

泡泡机器人SLAM

5+阅读 · 2018年5月31日

CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet：可端到端学习视频的运动表征

CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet：可端到端学习视频的运动表征

极市平台

8+阅读 · 2018年4月13日

CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL：可显著增强人脸识别模型的判别能力

CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL：可显著增强人脸识别模型的判别能力

机器之心

11+阅读 · 2018年3月26日

【重磅】自适应无监督学习的特征提取方法

【重磅】自适应无监督学习的特征提取方法

中国自动化学会

7+阅读 · 2018年2月6日

NIPS 2017论文提出深度离散哈希算法，可用于图像检索

NIPS 2017论文提出深度离散哈希算法，可用于图像检索

极市平台

7+阅读 · 2017年11月7日

相关论文

Query Understanding via Intent Description Generation

Arxiv

9+阅读 · 2020年8月25日

Scene-based Factored Attention for Image Captioning

Arxiv

4+阅读 · 2019年8月7日

A Fast Content-Based Image Retrieval Method Using Deep Visual Features

Arxiv

3+阅读 · 2019年8月5日

Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning

Arxiv

3+阅读 · 2019年6月11日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

14+阅读 · 2018年9月19日

Image Captioning based on Deep Reinforcement Learning

Image Captioning based on Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年9月13日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Entity-aware Image Caption Generation

Arxiv

7+阅读 · 2018年4月21日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

Fast Interactive Image Retrieval using large-scale unlabeled data

Arxiv

4+阅读 · 2018年2月12日

微信扫码咨询专知VIP会员