【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的 - 专知VIP

会员服务 ·

4

因果关系 · 多模态常识推理 ·

2021 年 7 月 26 日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

因果关系知识对于构建健壮的人工智能系统至关重要。在需要因果推理的任务中，深度学习模型通常表现不佳。因果推理通常是通过某种形式的常识性知识推导出来的，这些常识性知识不是直接输入的，而是由人类隐式推断出来的。先前的工作已经揭示了在因果关系缺失的情况下，模型会陷入虚假的观测偏差。虽然语言表征模型在习得的嵌入中保留了语境知识，但它们在训练中不考虑因果关系。通过将因果关系与输入特征融合到现有模型中执行视觉认知任务(如场景理解、视频字幕、视频问答等)，可以获得更好的性能，因为因果关系带来的洞察力。最近，已经提出了几个模型来处理从视觉或文本模态中挖掘因果数据的任务。然而，目前还没有广泛流行的研究通过视觉和语言模式的并列来挖掘因果关系。图像为我们提供了丰富且易于处理的资源来挖掘因果关系知识，而视频则更加密集，由自然的时间顺序事件组成。此外，文本信息提供了视频中可能隐含的细节。因此，我们提出了iReason，这是一个利用视频和自然语言字幕推断视觉语义常识的框架。此外，iReason的架构集成了一个因果合理化模块，以辅助解释、错误分析和偏差检测的过程。我们通过与语言表征学习模型(BERT, GPT-2)以及当前最先进的多模态因果模型的双管比较分析，证明了iReason的有效性。最后，我们通过将“因果信号”整合到一系列下游认知任务(如密集视频字幕、视频问答和场景理解)中的案例研究，证明了iReason的普遍适用性。

https://www.zhuanzhi.ai/paper/7e370c38d06cbb2ea08ab41e2167a9a9

成为VIP会员查看完整内容

35

相关内容

因果关系

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

自然语言预训练模型知识增强方法综述

专知会员服务

62+阅读 · 2021年8月4日

【NAACL2021】深度NLP模型的细粒度解释与因果性分析，附317页ppt与视频

专知会员服务

39+阅读 · 2021年6月8日

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

专知会员服务

11+阅读 · 2020年10月27日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

【ICML2020-斯坦福Facebook】神经网络的图结构：通过相关图表达理解神经网络

专知会员服务

33+阅读 · 2020年7月16日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知

3+阅读 · 2020年5月14日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

MSRA：基于推理的多轮语义分析和问答

MSRA：基于推理的多轮语义分析和问答

DataFunTalk

5+阅读 · 2019年11月22日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

OpenAI NLP最新进展：通过无监督学习提升语言理解

OpenAI NLP最新进展：通过无监督学习提升语言理解

人工智能头条

6+阅读 · 2018年6月18日

NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset

Arxiv

0+阅读 · 2021年9月22日

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Arxiv

17+阅读 · 2021年6月25日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Arxiv

6+阅读 · 2020年10月26日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Using Scene Graph Context to Improve Image Generation

Using Scene Graph Context to Improve Image Generation

Arxiv

3+阅读 · 2019年1月15日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Differential Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年4月1日

Image Captioning using Deep Neural Architectures

Arxiv

20+阅读 · 2018年1月17日

Fluency-Guided Cross-Lingual Image Captioning

Arxiv

3+阅读 · 2017年8月15日

VIP会员

相关主题

多模态常识推理

相关VIP内容

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

自然语言预训练模型知识增强方法综述

专知会员服务

62+阅读 · 2021年8月4日

【NAACL2021】深度NLP模型的细粒度解释与因果性分析，附317页ppt与视频

专知会员服务

39+阅读 · 2021年6月8日

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

专知会员服务

11+阅读 · 2020年10月27日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

【ICML2020-斯坦福Facebook】神经网络的图结构：通过相关图表达理解神经网络

专知会员服务

33+阅读 · 2020年7月16日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知

3+阅读 · 2020年5月14日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

MSRA：基于推理的多轮语义分析和问答

MSRA：基于推理的多轮语义分析和问答

DataFunTalk

5+阅读 · 2019年11月22日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

OpenAI NLP最新进展：通过无监督学习提升语言理解

OpenAI NLP最新进展：通过无监督学习提升语言理解

人工智能头条

6+阅读 · 2018年6月18日

相关论文

NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset

Arxiv

0+阅读 · 2021年9月22日

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Arxiv

17+阅读 · 2021年6月25日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Arxiv

6+阅读 · 2020年10月26日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Using Scene Graph Context to Improve Image Generation

Using Scene Graph Context to Improve Image Generation

Arxiv

3+阅读 · 2019年1月15日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Differential Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年4月1日

Image Captioning using Deep Neural Architectures

Arxiv

20+阅读 · 2018年1月17日

Fluency-Guided Cross-Lingual Image Captioning

Arxiv

3+阅读 · 2017年8月15日

微信扫码咨询专知VIP会员