【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练 - 专知VIP

会员服务 ·

0

视觉语言表示学习 · 大规模对抗训练 · NeurIPS 2020 ·

2020 年 10 月 27 日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们提出了VILLA，这是已知的第一个针对视觉和语言(V+L)表征学习的大规模对抗训练。VILLA由两个训练阶段组成: (一)任务不可知的对抗性预训练; 其次(二)针对具体任务进行对抗性微调。为了避免在图像像素和文本标记上增加对抗性扰动，我们建议在每个模态的嵌入空间中进行对抗性训练。为了实现大规模训练，我们采用了“free”对抗式训练策略，并与基于KL发散的正则化相结合，提高了嵌入空间的高不变性。我们将VILLA应用到目前表现最好的V+L模型中，并在广泛的任务中达到了新的水平，包括视觉问题回答、视觉常识推理、图像-文本检索、参考表达理解、视觉隐含和NLVR2。

https://www.zhuanzhi.ai/paper/9ac766aec437a266e108f8dd71d3ab25

成为VIP会员查看完整内容

15

相关内容

视觉语言表示学习

视觉语言表示学习

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

专知会员服务

44+阅读 · 2020年10月20日

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

专知会员服务

66+阅读 · 2020年10月20日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

专知会员服务

26+阅读 · 2020年10月9日

近期必读的六篇 ICML 2020【对比学习】相关论文

近期必读的六篇 ICML 2020【对比学习】相关论文

专知会员服务

57+阅读 · 2020年9月15日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

目标检测数据标注成本高怎么破？主动学习的自适应监督框架

目标检测数据标注成本高怎么破？主动学习的自适应监督框架

AI科技评论

9+阅读 · 2019年10月11日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

腾讯优图25篇CVPR解读：视觉对抗学习、视频深度理解等

腾讯优图25篇CVPR解读：视觉对抗学习、视频深度理解等

新智元

4+阅读 · 2019年3月8日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

Supervision Accelerates Pre-training in Contrastive Semi-Supervised Learning of Visual Representations

Arxiv

0+阅读 · 2020年12月1日

Just Ask: Learning to Answer Questions from Millions of Narrated Videos

Arxiv

0+阅读 · 2020年12月1日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Arxiv

7+阅读 · 2020年6月11日

Creativity Inspired Zero-Shot Learning

Arxiv

4+阅读 · 2019年4月3日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

4+阅读 · 2018年6月19日

Adversarial Meta-Learning

Arxiv

7+阅读 · 2018年6月8日

Deep learning evaluation using deep linguistic processing

Arxiv

3+阅读 · 2018年5月12日

Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions

Arxiv

9+阅读 · 2018年1月27日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

VIP会员

相关主题

视觉语言表示学习

大规模对抗训练

相关VIP内容

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

专知会员服务

44+阅读 · 2020年10月20日

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

专知会员服务

66+阅读 · 2020年10月20日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

专知会员服务

26+阅读 · 2020年10月9日

近期必读的六篇 ICML 2020【对比学习】相关论文

近期必读的六篇 ICML 2020【对比学习】相关论文

专知会员服务

57+阅读 · 2020年9月15日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《战略分析：面向国防与国际安全的建模与仿真》

《俄乌战争中影响力行动的社交媒体分析》2025最新69页

什么是模块化开放系统方法（MOSA）？从美陆军新型倾转旋翼机视角解读

《用于评估军事作战场景的仿真环境》

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

目标检测数据标注成本高怎么破？主动学习的自适应监督框架

目标检测数据标注成本高怎么破？主动学习的自适应监督框架

AI科技评论

9+阅读 · 2019年10月11日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

腾讯优图25篇CVPR解读：视觉对抗学习、视频深度理解等

腾讯优图25篇CVPR解读：视觉对抗学习、视频深度理解等

新智元

4+阅读 · 2019年3月8日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

相关论文

Supervision Accelerates Pre-training in Contrastive Semi-Supervised Learning of Visual Representations

Arxiv

0+阅读 · 2020年12月1日

Just Ask: Learning to Answer Questions from Millions of Narrated Videos

Arxiv

0+阅读 · 2020年12月1日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Arxiv

7+阅读 · 2020年6月11日

Creativity Inspired Zero-Shot Learning

Arxiv

4+阅读 · 2019年4月3日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

4+阅读 · 2018年6月19日

Adversarial Meta-Learning

Arxiv

7+阅读 · 2018年6月8日

Deep learning evaluation using deep linguistic processing

Arxiv

3+阅读 · 2018年5月12日

Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions

Arxiv

9+阅读 · 2018年1月27日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

微信扫码咨询专知VIP会员