题目: Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

摘要:

Visual dialog之前的工作重点是在VisDial数据集上单独训练深度神经网络模型,这已经取得了很大的进展,但也是限制和浪费。在这项工作中,随着最近的语言表示学习的趋势,我们介绍了一种方法,以利用在转移到可视化对话框之前,在相关的大规模视觉语言数据集上的预训练。具体地说,我们采用了最近提出的多回合可视地面会话序列的维尔伯特模型。我们的模型预先训练了概念说明和可视化问题回答数据集,并通过掩蔽语言建模和下一个感知预测目标对可视拨号进行了微调。我们最好的单模型在视觉对话方面达到了艺术级的水平,在NDCG和MRR上的表现超过了之前发表的作品(包括模型集成)的1%。

作者简介:

Vishvak Murahari是佐治亚理工学院计算机科学硕士二年级的学生,由Devi Parikh教授和Abhishek Das教授指导。在佐治亚理工学院获得了计算机科学学士学位(专注于人工智能和设备),研究的问题是计算机视觉、机器学习和自然语言处理的交叉领域,目前对会话人工智能感兴趣。

Dhruv Batra是佐治亚理工学院交互计算学院的副教授,也是Facebook人工智能研究(FAIR)的研究科学家。他的研究兴趣在于机器学习、计算机视觉、自然语言处理和人工智能的交叉领域。他的研究的长期目标是开发“看”(更普遍地通过视觉、听觉或其他感官感知他们的环境)、“说”(即在他们的环境中保持一个自然语言对话)、“行动”(例如,操纵他们的环境并与之互动以实现目标)和“理性”(即,在他们的环境中进行交流的智能体,考虑他们行动的长期后果)。

Devi Parikh是佐治亚理工学院交互计算学院的副教授,也是Facebook人工智能研究(FAIR)的研究科学家。她的研究兴趣包括计算机视觉和人工智能,特别是视觉识别问题。她最近的工作包括探索视觉和语言交叉的问题,并利用人机协作来构建更智能的机器。她还研究了其他一些课题,如分类器集成、数据融合、概率模型推理、3D重组、条形码分割、计算摄影、交互式计算机视觉、上下文推理、图像的层次表示和人类调试。

Abhishek Das是佐治亚理工学院计算机科学博士生,研究重点是深度学习及其在构建能看见(计算机视觉)、思考(推理/可解释)、说话(语言建模)和行动(强化学习)的智能体中的应用。

成为VIP会员查看完整内容
4

相关内容

表示学习是通过利用训练数据来学习得到向量表示,这可以克服人工方法的局限性。 表示学习通常可分为两大类,无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器(如去噪自动编码器和稀疏自动编码器等)中的隐变量作为表示。 目前出现的变分自动编码器能够更好的容忍噪声和异常值。 然而,推断给定数据的潜在结构几乎是不可能的。 目前有一些近似推断的策略。 此外,一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架,该框架使用矩阵分解来保持成对的DTW相似性。 通过学习保持DTW的shaplets,即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息,更好地捕获数据的语义结构。 孪生网络和三元组网络是目前两种比较流行的模型,它们的目标是最大化类别之间的距离并最小化了类别内部的距离。
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
训练目标检测模型只需要这 6 行代码
AI科技评论
8+阅读 · 2019年8月19日
各种NLP操作难实现?谷歌开源序列建模框架Lingvo
机器之心
4+阅读 · 2019年2月26日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
Learning Discriminative Model Prediction for Tracking
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关VIP内容
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
训练目标检测模型只需要这 6 行代码
AI科技评论
8+阅读 · 2019年8月19日
各种NLP操作难实现?谷歌开源序列建模框架Lingvo
机器之心
4+阅读 · 2019年2月26日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
微信扫码咨询专知VIP会员