简介: 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。多模态信息处理是一个老问题,但真正理解多模态仍然是一个麻烦问题。

从多模态中可以获取多种信息,比如视频中可以获得场景信息与人物信息、文本特征可以获取关系信息与情节信息、音频特征中可以获得情感信息等等。深度分析这些特征中潜在的信息会获得更多有用的信息。

然而获取语义信息存在极大的挑战,从理论层面来说,机器不理解人的思维方式,这样会导致“语义鸿沟”的现象;数据层面,缺乏规范化标注语料,各模态信息难以解释与关联。因此本教程中提出通过融模态语义理解和多模态语义关联来加深层次语义理解。

成为VIP会员查看完整内容
81

相关内容

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
53+阅读 · 2020年4月18日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
53+阅读 · 2020年4月18日
微信扫码咨询专知VIP会员