成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
伯克利胡戎航124页博士论文:视觉与语言推理的结构化模型
2020 年 11 月 3 日
AI科技评论
作者 | 陈大鑫
本文介绍一篇胡戎航2020年的博士论文 《
视觉与语言推理的结构化模型
》(《Structured Models for Vision-and-Language Reasoning》),
本篇论文
采用了考虑到人类语言、视觉场景和智能体技能中的模式和规律的体系结构模型,
建立了数据效率高、易于推广的更好的推理模型。
1
作者介绍
胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科学家,在CVPR、ICCV、ECCV、NeurIPS,等AI顶会上发表过十几篇论文,其中一作10篇。
他的研究兴趣包括视觉和语言推理和视觉感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指导下获得UC Berkeley的计算机科学博士学位。
2019年夏天和2017年夏天,他在全球顶级实验室FAIR做研究实习生,分别与Marcus Rohrbach博士和Ross Girshick博士(RBG大神!)一起工作。
他于2015年获得清华大学电子系学士学位,2014年,他在中国科学院计算技术研究所进行研究实习,山世光教授和王瑞平教授作指导。
个人主页:https://ronghanghu.com/
2
博士论文介绍
论文链接:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf
视觉和语言任务(如回答有关图像的问题、建立一个参考表达式或遵循自然语言指令在视觉环境中导航)需要对图像和文本的两种模式进行联合建模和推理。
我们已经见证了视觉和语言联合推理的重要进展,通常是通过在更大的数据集和更多的计算资源的帮助下训练的神经方法。
然而,解决这些视觉和语言的任务是否像构建具有更多参数的模型、并在更多数据上训练它们一样简单吗?
如果不是,我们又该怎样才能建立数据效率高、易于推广的更好的推理模型呢?
本篇论文
通过视觉和语言推理的结构化模型来回答上述问题,该模型采用了考虑到人类语言、视觉场景和智能体技能中的模式和规律的体系结构模型。
第二章中
,
作者从引用表达式基础的任务开始
提出的组合模块网络(CMNs)考虑了这些表达式中的组合结构,可以显著地提高准确性和泛化性。
第三章中
,作者使用基于与问题推理步骤相一致的动态组合模块的端到端模块网络(N2NMNs)进一步解决了可视化问题回答任务。
第四章中
,作者扩展了模块化推理的研究,提出了一种堆栈神经模块网络(SNMNs),该网络能够自动地引导具有可解释推理步骤的模块布局。
第五章中
,除了模块化推理之外,作者还提出了用语言条件图网络(LCGNs:Language-Conditioned Graph Networks)构造视觉场景的上下文感知表示,并解决了第六章中用迭代指针增强多模态Transformers读取图像中的文本进行问答的问题。
第六章中
,作者展示了嵌入(embodied)任务也需要结构化模型。
第七章中
,作者提出了导航教学跟随任务的Speaker-Follower模型,并给出了一对speake模型和一个互补的follower模型。
最后,在所有这些场景中,作者表明,通过考虑任务和输入模式中的结构,本文提出的模型比非结构化模型的性能和推广性能都要好得多。
论文目录
本文模型:
(a) 本文的模型学习将一个表达式解析成带有注意力(attention )的主语、关系和宾语的语言表达。
(b)定位模块将主语或宾语与每个图像区域匹配,并返回一元概率unary score 。
(c) 关系模块与一对区域匹配一个关系,并返回一个成对的分数。
应用案例:
在给定一幅图像和一个表达式的基础上,我们学习如何将表达式解析为带有注意力的主语
、关系
和宾语
的向量表示,并用两种模块将这些文本成分与图像区域对齐。
定位模块输出每个单独区域的分数,而关系模块生成区域对的分数。
这些输出被整合到区域对的最终分数中,产生顶部区域对作为grounding 结果。
用于组合VQA的端到端模块网络:
本文的方法首先计算问题的深度表示,并将其作为使用RNN实现的layout预测策略的输入。该策略发出一系列结构动作,用反向波兰表达式指定模块化神经网络的模板,以及一系列注意力行为,并从输入句子中提取这些神经模块的参数。这两个序列被传递给网络构建器,网络构建器动态地实例化适当的神经网络,并将其应用于输入图像以获得答案。
通过堆栈神经模块网络的可解释的神经计算模型:
该模型通过模块权重w(t)来预测一个连续的布局,并使用内存堆栈以软方式执行模块。
语言条件图网络:
迭代指针增强的TextVQA多模态转换器:
说话者-跟随者模式用于指导跟随:
了解更多内容,请移步原论文~
推荐阅读
点击阅读原文,直达NeurIPS小组~
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
结构化模型
关注
0
【牛津大学BoYang博士论文】学习重建和分割三维物体,143页pdf
专知会员服务
68+阅读 · 2020年11月9日
【伯克利胡戎航博士论文】视觉与语言推理的结构化模型,124页pdf
专知会员服务
43+阅读 · 2020年10月31日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
96+阅读 · 2020年6月19日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知会员服务
71+阅读 · 2019年10月27日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知会员服务
78+阅读 · 2019年10月27日
八篇NeurIPS 2019最新公布的【图神经网络(GNN)】相关论文
专知
75+阅读 · 2019年9月10日
超越标准 GNN !DeepMind、谷歌提出图匹配网络| ICML最新论文
新智元
20+阅读 · 2019年5月6日
DeepMind网红博士300页论文出炉:面向NLP的神经迁移学习(附下载)
新智元
10+阅读 · 2019年3月27日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知
12+阅读 · 2018年12月22日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知
57+阅读 · 2018年12月16日
Towards User Scheduling for 6G: A Fairness-Oriented Scheduler Using Multi-Agent Reinforcement Learning
Arxiv
0+阅读 · 2021年2月4日
Towards Multi-agent Reinforcement Learning for Wireless Network Protocol Synthesis
Arxiv
0+阅读 · 2021年2月2日
Evolving Losses for Unsupervised Video Representation Learning
Arxiv
23+阅读 · 2020年2月26日
Flipped-Adversarial AutoEncoders
Arxiv
6+阅读 · 2018年4月4日
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Arxiv
7+阅读 · 2018年3月30日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
结构化模型
视觉与语言推理
结构化
Facebook AI Research
博士
论文
相关VIP内容
【牛津大学BoYang博士论文】学习重建和分割三维物体,143页pdf
专知会员服务
68+阅读 · 2020年11月9日
【伯克利胡戎航博士论文】视觉与语言推理的结构化模型,124页pdf
专知会员服务
43+阅读 · 2020年10月31日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
96+阅读 · 2020年6月19日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知会员服务
71+阅读 · 2019年10月27日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知会员服务
78+阅读 · 2019年10月27日
热门VIP内容
开通专知VIP会员 享更多权益服务
美海军作战管理系统:变革战场空间的二十年
《任务与武器驱动美海军舰队设计》报告
俄罗斯“沙希德”/“天竺葵”攻击无人机
《利用动态图对网络攻击进行建模与仿真:在云安全评估中的应用》90页
相关资讯
八篇NeurIPS 2019最新公布的【图神经网络(GNN)】相关论文
专知
75+阅读 · 2019年9月10日
超越标准 GNN !DeepMind、谷歌提出图匹配网络| ICML最新论文
新智元
20+阅读 · 2019年5月6日
DeepMind网红博士300页论文出炉:面向NLP的神经迁移学习(附下载)
新智元
10+阅读 · 2019年3月27日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知
12+阅读 · 2018年12月22日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知
57+阅读 · 2018年12月16日
相关论文
Towards User Scheduling for 6G: A Fairness-Oriented Scheduler Using Multi-Agent Reinforcement Learning
Arxiv
0+阅读 · 2021年2月4日
Towards Multi-agent Reinforcement Learning for Wireless Network Protocol Synthesis
Arxiv
0+阅读 · 2021年2月2日
Evolving Losses for Unsupervised Video Representation Learning
Arxiv
23+阅读 · 2020年2月26日
Flipped-Adversarial AutoEncoders
Arxiv
6+阅读 · 2018年4月4日
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Arxiv
7+阅读 · 2018年3月30日
大家都在搜
Palantir
蓝牙安全攻防
大型语言模型
多域作战
基础模型
朱克爱德华兹家族
反恐
机场
颜真卿
模型压缩 | 知识蒸馏经典解读
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top