如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码 - 专知VIP

会员服务 ·

7

BERT · 多模态 ·

2020 年 2 月 27 日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

【导读】BERT自问世以来，几乎刷新了各种NLP的任务榜，基于BERT的变种也层出不穷。19年来，很多研究人员都尝试融合视觉音频等模态信息进行构建预训练语言模型。本文介绍了EMNLP2019来自UNC-北卡罗来纳大学教堂山分校的Hao Tan的工作。构建LXMERT(从Transformers中学习跨模态编码器表示)框架来学习这些视觉和语言的语义联系。作者这份76页PPT详细介绍了语言和视觉任务的概况以及如何构建多模态BERT。

视觉和语言推理需要理解视觉概念、语言语义，最重要的是理解这两种模式之间的对齐和关系。因此，我们提出了LXMERT(从Transformers中学习跨模态编码器表示)框架来学习这些视觉和语言联系。在LXMERT中，我们构建了一个大型Transformers模型，它由三个编码器组成:一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来, 赋予我们的模型的功能连接视觉和语言的语义,我们在大量image-and-sentence 预训练模型, 通过五个不同代表训练的任务: mask语言建模,mask对象预测(功能回归和标签分类), 跨模式匹配和图像问答。这些任务有助于学习模态内和模态间的关系。从我们预先训练的参数进行微调后，我们的模型在两个可视化的问题回答数据集(即， VQA和GQA)。我们还通过将预训练的跨模态模型应用于具有挑战性的视觉推理任务NLVR2，并将之前的最佳结果提高了22%(54%至76%)，从而展示了该模型的通用性。最后，我们展示了详细的ablation study，以证明我们的新模型组件和预训练策略对我们的结果有显著的贡献;并针对不同的编码器提出了几种注意可视化方法。代码和预训练的模型可在: https://github.com/airsplay/lxmert

成为VIP会员查看完整内容

85

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

59+阅读 · 2020年6月18日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

专知会员服务

15+阅读 · 2020年1月9日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

五篇 ICCV 2019 最新公布的【图神经网络（GNN）+CV】相关论文-Part2

五篇 ICCV 2019 最新公布的【图神经网络（GNN）+CV】相关论文-Part2

专知

55+阅读 · 2019年10月1日

BERT模型进军视频领域，看你和面就知会做蛋糕

BERT模型进军视频领域，看你和面就知会做蛋糕

机器之心

10+阅读 · 2019年9月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

如何可视化BERT？你需要先理解神经网络的语言、树和几何性质

如何可视化BERT？你需要先理解神经网络的语言、树和几何性质

机器之心

5+阅读 · 2019年6月14日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

前沿 | 通用句子语义编码器，谷歌在语义文本相似性上的探索

前沿 | 通用句子语义编码器，谷歌在语义文本相似性上的探索

机器之心

8+阅读 · 2018年5月26日

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

专知

6+阅读 · 2018年2月19日

Relation-Aware Graph Attention Network for Visual Question Answering

Relation-Aware Graph Attention Network for Visual Question Answering

Arxiv

7+阅读 · 2019年10月9日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Hyperbolic Attention Networks

Arxiv

9+阅读 · 2018年5月24日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Dual Recurrent Attention Units for Visual Question Answering

Arxiv

7+阅读 · 2018年2月1日

VIP会员

相关主题

相关VIP内容

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

59+阅读 · 2020年6月18日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

专知会员服务

15+阅读 · 2020年1月9日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

热门VIP内容

开通专知VIP会员享更多权益服务

卫星导航技术发展综述

《美军"僚机"联合能力技术演示项目：有人-无人火炮作战》41页报告

美军条令《火力指挥》116页

可解释的人工智能在生物医学图像分析中的应用综述

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

五篇 ICCV 2019 最新公布的【图神经网络（GNN）+CV】相关论文-Part2

五篇 ICCV 2019 最新公布的【图神经网络（GNN）+CV】相关论文-Part2

专知

55+阅读 · 2019年10月1日

BERT模型进军视频领域，看你和面就知会做蛋糕

BERT模型进军视频领域，看你和面就知会做蛋糕

机器之心

10+阅读 · 2019年9月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

如何可视化BERT？你需要先理解神经网络的语言、树和几何性质

如何可视化BERT？你需要先理解神经网络的语言、树和几何性质

机器之心

5+阅读 · 2019年6月14日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

前沿 | 通用句子语义编码器，谷歌在语义文本相似性上的探索

前沿 | 通用句子语义编码器，谷歌在语义文本相似性上的探索

机器之心

8+阅读 · 2018年5月26日

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

专知

6+阅读 · 2018年2月19日

相关论文

Relation-Aware Graph Attention Network for Visual Question Answering

Relation-Aware Graph Attention Network for Visual Question Answering

Arxiv

7+阅读 · 2019年10月9日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Hyperbolic Attention Networks

Arxiv

9+阅读 · 2018年5月24日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Dual Recurrent Attention Units for Visual Question Answering

Arxiv

7+阅读 · 2018年2月1日

微信扫码咨询专知VIP会员