【佐治亚理工学院】大规模的视觉对话的预训练:一个简单的最先进的基线（Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline）

题目： Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

摘要：

Visual dialog之前的工作重点是在VisDial数据集上单独训练深度神经网络模型，这已经取得了很大的进展，但也是限制和浪费。在这项工作中，随着最近的语言表示学习的趋势，我们介绍了一种方法，以利用在转移到可视化对话框之前，在相关的大规模视觉语言数据集上的预训练。具体地说，我们采用了最近提出的多回合可视地面会话序列的维尔伯特模型。我们的模型预先训练了概念说明和可视化问题回答数据集，并通过掩蔽语言建模和下一个感知预测目标对可视拨号进行了微调。我们最好的单模型在视觉对话方面达到了艺术级的水平，在NDCG和MRR上的表现超过了之前发表的作品(包括模型集成)的1%。

作者简介：

Vishvak Murahari是佐治亚理工学院计算机科学硕士二年级的学生，由Devi Parikh教授和Abhishek Das教授指导。在佐治亚理工学院获得了计算机科学学士学位(专注于人工智能和设备)，研究的问题是计算机视觉、机器学习和自然语言处理的交叉领域，目前对会话人工智能感兴趣。

Dhruv Batra是佐治亚理工学院交互计算学院的副教授，也是Facebook人工智能研究(FAIR)的研究科学家。他的研究兴趣在于机器学习、计算机视觉、自然语言处理和人工智能的交叉领域。他的研究的长期目标是开发“看”(更普遍地通过视觉、听觉或其他感官感知他们的环境)、“说”(即在他们的环境中保持一个自然语言对话)、“行动”(例如，操纵他们的环境并与之互动以实现目标)和“理性”(即，在他们的环境中进行交流的智能体，考虑他们行动的长期后果)。

Devi Parikh是佐治亚理工学院交互计算学院的副教授，也是Facebook人工智能研究(FAIR)的研究科学家。她的研究兴趣包括计算机视觉和人工智能，特别是视觉识别问题。她最近的工作包括探索视觉和语言交叉的问题，并利用人机协作来构建更智能的机器。她还研究了其他一些课题，如分类器集成、数据融合、概率模型推理、3D重组、条形码分割、计算摄影、交互式计算机视觉、上下文推理、图像的层次表示和人类调试。

Abhishek Das是佐治亚理工学院计算机科学博士生，研究重点是深度学习及其在构建能看见(计算机视觉)、思考(推理/可解释)、说话(语言建模)和行动(强化学习)的智能体中的应用。

成为VIP会员查看完整内容

相关内容

表示学习

关注 186

表示学习是通过利用训练数据来学习得到向量表示，这可以克服人工方法的局限性。表示学习通常可分为两大类，无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器（如去噪自动编码器和稀疏自动编码器等）中的隐变量作为表示。目前出现的变分自动编码器能够更好的容忍噪声和异常值。然而，推断给定数据的潜在结构几乎是不可能的。目前有一些近似推断的策略。此外，一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架，该框架使用矩阵分解来保持成对的DTW相似性。通过学习保持DTW的shaplets，即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息，更好地捕获数据的语义结构。孪生网络和三元组网络是目前两种比较流行的模型，它们的目标是最大化类别之间的距离并最小化了类别内部的距离。

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日