【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理 - 专知VIP

会员服务 ·

1

视频问答 · NeurIPS 2021 · 论文 ·

2021 年 11 月 23 日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自我挖掘：视频问答中对样本进行孪生采样和推理

Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering

论文摘要：视频问答任务需要根据语言线索的组合语义，获取并使用视频中的视觉信号的时域和空域特征，从而生成回答。现有的一些工作从视频中提取一般的视觉信息以及运动特征来表示视频内容，并设计了不同的注意力机制来整合这些特征。这些方法注重于如何更好地理解视频的整体内容，但这样容易忽略了视频段中的细节。也有一些研究人员探究了如何通过对视频的视觉和语言信息进行语义层面上的特征对齐。但是这些工作都忽略了同一个视频中的上下文之间的关联。为了解决上诉问题，我们提出了此基于自驱动孪生采样和推理的框架，并将其用于提取相同视频的不同视频段中的上下文语义信息，用于增强网络的学习效果。本方法在 5 个公开的数据集上面实现了最优的效果。

https://papers.nips.cc/paper/2021/file/dea184826614d3f4c608731389ed0c74-Paper.pdf

成为VIP会员查看完整内容

4

相关内容

视频问答

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

48+阅读 · 2021年12月20日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

18+阅读 · 2021年12月19日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

10+阅读 · 2021年12月10日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

14+阅读 · 2021年11月14日

【NeurIPS 2021】深度上下文视频压缩

专知会员服务

7+阅读 · 2021年10月4日

【ICCV2021】用图神经网络提取整体知识

专知会员服务

26+阅读 · 2021年8月13日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

16+阅读 · 2021年3月24日

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

68+阅读 · 2020年12月27日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

65+阅读 · 2020年4月5日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

106+阅读 · 2020年2月19日

【NeurIPS2020】可处理反事实推断的深度结构因果模型

【NeurIPS2020】可处理反事实推断的深度结构因果模型

专知

7+阅读 · 2020年9月29日

IJCAI 2020 | Mucko：面向视觉问答的多层次跨模态知识推理模型

IJCAI 2020 | Mucko：面向视觉问答的多层次跨模态知识推理模型

AI科技评论

9+阅读 · 2020年5月22日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

21+阅读 · 2019年8月30日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

目标跟踪的一篇论文及代码视频

目标跟踪的一篇论文及代码视频

CreateAMind

8+阅读 · 2017年9月7日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

18+阅读 · 2017年8月22日

看视频，讲故事，举一反三：详解英特尔弱监督视频密集描述生成模型

看视频，讲故事，举一反三：详解英特尔弱监督视频密集描述生成模型

机器学习研究会

3+阅读 · 2017年8月5日

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval

Arxiv

1+阅读 · 2022年1月23日

Joint Inductive and Transductive Learning for Video Object Segmentation

Arxiv

5+阅读 · 2021年8月8日

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Arxiv

5+阅读 · 2020年12月14日

BAG: Bi-directional Attention Entity Graph Convolutional Network for Multi-hop Reasoning Question Answering

Arxiv

4+阅读 · 2019年4月10日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Path Aggregation Network for Instance Segmentation

Arxiv

3+阅读 · 2018年3月5日

Object-based reasoning in VQA

Arxiv

6+阅读 · 2018年1月29日

VIP会员

相关主题

相关VIP内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

48+阅读 · 2021年12月20日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

18+阅读 · 2021年12月19日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

10+阅读 · 2021年12月10日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

14+阅读 · 2021年11月14日

【NeurIPS 2021】深度上下文视频压缩

专知会员服务

7+阅读 · 2021年10月4日

【ICCV2021】用图神经网络提取整体知识

专知会员服务

26+阅读 · 2021年8月13日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

16+阅读 · 2021年3月24日

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

68+阅读 · 2020年12月27日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

65+阅读 · 2020年4月5日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

106+阅读 · 2020年2月19日

热门VIP内容

相关资讯

【NeurIPS2020】可处理反事实推断的深度结构因果模型

【NeurIPS2020】可处理反事实推断的深度结构因果模型

专知

7+阅读 · 2020年9月29日

IJCAI 2020 | Mucko：面向视觉问答的多层次跨模态知识推理模型

IJCAI 2020 | Mucko：面向视觉问答的多层次跨模态知识推理模型

AI科技评论

9+阅读 · 2020年5月22日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

21+阅读 · 2019年8月30日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

目标跟踪的一篇论文及代码视频

目标跟踪的一篇论文及代码视频

CreateAMind

8+阅读 · 2017年9月7日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

18+阅读 · 2017年8月22日

看视频，讲故事，举一反三：详解英特尔弱监督视频密集描述生成模型

看视频，讲故事，举一反三：详解英特尔弱监督视频密集描述生成模型

机器学习研究会

3+阅读 · 2017年8月5日

相关论文

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval

Arxiv

1+阅读 · 2022年1月23日

Joint Inductive and Transductive Learning for Video Object Segmentation

Arxiv

5+阅读 · 2021年8月8日

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Arxiv

5+阅读 · 2020年12月14日

BAG: Bi-directional Attention Entity Graph Convolutional Network for Multi-hop Reasoning Question Answering

Arxiv

4+阅读 · 2019年4月10日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Path Aggregation Network for Instance Segmentation

Arxiv

3+阅读 · 2018年3月5日

Object-based reasoning in VQA

Arxiv

6+阅读 · 2018年1月29日

微信扫码咨询专知VIP会员