【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf， - 专知

会员服务 ·

0

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf，

2020 年 10 月 31 日 专知

Ronghang Hu (胡戎航)

胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科学家。他的研究兴趣包括视觉和语言推理和视觉感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指导下获得UC Berkeley的计算机科学博士学位。2019年夏天和2017年夏天，他在FAIR做研究实习生，分别与Marcus Rohrbach博士和Ross Girshick博士一起工作。2015年获得清华大学学士学位。2014年，他在中国科学院计算技术研究所进行研究实习，得到了山时光教授和王瑞平教授的指导。

https://ronghanghu.com/

视觉与语言推理的结构化模型

视觉和语言任务(例如回答一个关于图像的问题，为参考表达做基础，或遵循自然语言指令在视觉环境中导航)需要对图像和文本的两种模式共同建模和推理。我们已经见证了视觉和语言推理的显著进展，通常是通过在更大的数据集和更多计算资源的帮助下训练的神经方法。然而，解决这些视觉和语言的任务就像用更多的参数建立模型，并在更多的数据上训练它们一样简单吗?如果不能，我们怎样才能建立数据效率高、易于推广的更好的推理模型呢?

这篇论文用视觉和语言推理的结构化模型为上述问题提供了答案——这些模型的架构考虑了人类语言、视觉场景和代理技能中的模式和规律。我们从表达式的基础开始，我们在第二章中展示了通过考虑这些表达式中的组合结构，我们提出的组合模块网络(CMNs)可以实现更好的准确性和泛化。在第三章中，我们使用基于与问题推理步骤一致的动态组合模块的端到端模块网络(N2NMNs)进一步解决了可视化的问题回答任务。在第四章中，我们扩展了模块化推理的研究，提出了基于可解释推理步骤的堆栈神经模块网络(SNMNs)。模块化推理之外,我们也提出构建环境敏感的视觉表征与Language-Conditioned场景图网络(LCGNs)。第五章对于关系推理和解决问题的阅读文本图像的问答迭代pointer-augmented多通道变形金刚。在第六章，我们说明了嵌入任务也需要结构化模型，并在第7章中提出了说话者-跟随者模型，其中说话者模型和跟随者模型互为补充。在所有这些场景中，我们表明，通过考虑任务中的结构和输入模式，我们的模型的执行和泛化明显优于非结构化对应模型。

目录内容

用于组合VQA的端到端模块网络

通过堆栈神经模块网络的可解释的神经计算

语言条件图网络

迭代指针增强的TextVQA多模态转换器

说话者-跟随者模式用于指导跟随

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SMVLR” 可以获取《【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

3

相关内容

结构化模型

结构化模型

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

专知会员服务

44+阅读 · 2020年12月27日

【博士论文】深度预测学习问题与方法研究

专知会员服务

82+阅读 · 2020年12月18日

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

专知会员服务

43+阅读 · 2020年10月31日

【复旦大学刘鹏飞博士论文】自然语言处理中的神经表示学习，153页pdf

专知会员服务

107+阅读 · 2020年9月1日

【CMU博士论文】信息检索中的神经匹配和重要性学习，163页pdf

【CMU博士论文】信息检索中的神经匹配和重要性学习，163页pdf

专知会员服务

58+阅读 · 2020年7月20日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

94+阅读 · 2020年6月19日

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

专知会员服务

136+阅读 · 2020年5月7日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

63+阅读 · 2019年10月27日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

51+阅读 · 2019年10月26日

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

专知

82+阅读 · 2020年2月13日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 & 代码

论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 & 代码

开放知识图谱

9+阅读 · 2018年5月11日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

3D Modelling and Visualisation of Observed Galaxies

Arxiv

0+阅读 · 2021年2月3日

"Alexa, Can I Program You?": Student Perceptions of Conversational Artificial Intelligence Before and After Programming Alexa

Arxiv

0+阅读 · 2021年2月2日

Towards Topic-Guided Conversational Recommender System

Towards Topic-Guided Conversational Recommender System

Arxiv

3+阅读 · 2020年11月2日

Object-Oriented Video Captioning with Temporal Graph and Prior Knowledge Building

Object-Oriented Video Captioning with Temporal Graph and Prior Knowledge Building

Arxiv

3+阅读 · 2020年3月12日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

Remedying BiLSTM-CNN Deficiency in Modeling Cross-Context for NER

Remedying BiLSTM-CNN Deficiency in Modeling Cross-Context for NER

Arxiv

3+阅读 · 2019年8月29日

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Arxiv

4+阅读 · 2019年3月6日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Physical Primitive Decomposition

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

VIP会员

相关主题

结构化模型

视觉与语言推理

Facebook AI Research

相关VIP内容

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

专知会员服务

44+阅读 · 2020年12月27日

【博士论文】深度预测学习问题与方法研究

专知会员服务

82+阅读 · 2020年12月18日

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

专知会员服务

43+阅读 · 2020年10月31日

【复旦大学刘鹏飞博士论文】自然语言处理中的神经表示学习，153页pdf

专知会员服务

107+阅读 · 2020年9月1日

【CMU博士论文】信息检索中的神经匹配和重要性学习，163页pdf

【CMU博士论文】信息检索中的神经匹配和重要性学习，163页pdf

专知会员服务

58+阅读 · 2020年7月20日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

94+阅读 · 2020年6月19日

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

专知会员服务

136+阅读 · 2020年5月7日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

63+阅读 · 2019年10月27日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

51+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

专知

82+阅读 · 2020年2月13日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 & 代码

论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 & 代码

开放知识图谱

9+阅读 · 2018年5月11日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

相关论文

3D Modelling and Visualisation of Observed Galaxies

Arxiv

0+阅读 · 2021年2月3日

"Alexa, Can I Program You?": Student Perceptions of Conversational Artificial Intelligence Before and After Programming Alexa

Arxiv

0+阅读 · 2021年2月2日

Towards Topic-Guided Conversational Recommender System

Towards Topic-Guided Conversational Recommender System

Arxiv

3+阅读 · 2020年11月2日

Object-Oriented Video Captioning with Temporal Graph and Prior Knowledge Building

Object-Oriented Video Captioning with Temporal Graph and Prior Knowledge Building

Arxiv

3+阅读 · 2020年3月12日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

Remedying BiLSTM-CNN Deficiency in Modeling Cross-Context for NER

Remedying BiLSTM-CNN Deficiency in Modeling Cross-Context for NER

Arxiv

3+阅读 · 2019年8月29日

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Multi-Instance Learning for End-to-End Knowledge Base Question Answering

Arxiv

4+阅读 · 2019年3月6日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Physical Primitive Decomposition

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

大家都在搜

大型语言模型

软件无线电

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员