【多模态智能：表示学习、信息融合和应用】Multimodal Intelligence: Representation Learning, Information Fusion, and Applications，芝加哥大学计算机科学系博士zichao Yang、华盛顿大学西雅图分校副教授xiaodong He等

2019 年 11 月 11 日

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目： Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

摘要： 自2010年以来，深度学习已经彻底改变了语音识别、图像识别和自然语言处理，每一项都涉及到输入信号中的单一模态。然而，人工智能中的许多应用都涉及到一种以上的模式。因此，研究跨多种模式的建模和学习这一更为困难和复杂的问题具有广泛的兴趣。本文对多模态智能的模型和学习方法进行了技术综述。视觉与自然语言的结合已成为计算机视觉和自然语言处理研究领域的一个重要课题。本文从学习多模态表示、多模态信号在不同层次的融合以及多模态应用三个新的角度，对多模态深度学习的最新研究成果进行了综合分析。在多模态表示学习中，我们回顾了嵌入的关键概念，它将多模态信号统一到同一向量空间中，从而实现跨模态信号处理。我们还回顾了为一般下游任务构造和学习的许多嵌入类型的特性。关于多模融合，本文着重介绍了用于集成特定任务的单模信号表示的特殊体系结构。在应用程序方面，涵盖了当前文献中广泛关注的选定领域，包括标题生成、文本到图像生成和可视化问题解答。我们相信，这项检讨有助于社区未来在新兴多模态情报领域的研究。

作者简介：

Zichao Yang (杨子超)，他是芝加哥大学计算机科学系的博士生。他对机器学习、深度学习及其在计算机视觉、自然语言处理中的应用感兴趣。在到CMU之前，他获得了香港大学的硕士学位，上海交通大学的学士学位。他之前曾在谷歌DeepMind实习，与Chris Dyer和Phil Blunsom合作，MSR与He Xiaodong、Gao Jianfeng和Li Deng合作。个人主页：http://www.cs.cmu.edu/~zichaoy/

Xiaodong He（何晓东）是华盛顿大学西雅图分校电气工程系的副教授。他也是微软研究中心的首席研究员，华盛顿州雷德蒙德。1996年获清华大学（北京）学士学位，1999年获中国科学院（北京）硕士学位，2003年获密苏里哥伦比亚大学博士学位。他的研究兴趣在于人工智能领域，包括深度学习、语音、自然语言、计算机视觉、信息检索和知识表示与管理。他撰写/合著了100多篇论文和一本书，并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上发表。IEEE、IEEE SPM等场馆。他和同事开发了MSR-NRC-SRI条目和MSR条目，分别在2008年NIST机器翻译评估和2011年IWSLT评估（中英文）中获得第一名，并开发了MSR图像字幕系统，在2015年的MS COCO字幕挑战赛中获得一等奖。他曾在多家IEEE期刊担任编辑职务，担任NAACL-HLT 2015地区主席，并在主要演讲和语言处理会议的组织委员会/项目委员会任职。他是IEEESLTC的当选成员，任期2015-2017年。他是IEEE高级成员，2016年IEEE西雅图分部主席。个人主页：http://faculty.washington.edu/xiaohe/

Li Deng是一位经验丰富的首席执行官，在高科技行业有着丰富的工作经验。在人工智能、机器学习、数学建模、计算机科学、语音识别、自然语言处理、深度学习、神经网络、大数据分析、财务和统计建模等方面具有较强的技术、执行管理和业务开发专业技能。等

成为VIP会员查看完整内容