【中科大徐童】多模态语义理解与关联

简介： 每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时，模态也可以有非常广泛的定义，比如我们可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。多模态学习从1970年代起步，经历了几个发展阶段，在2010后全面步入Deep Learning阶段。多模态信息处理是一个老问题，但真正理解多模态仍然是一个麻烦问题。

从多模态中可以获取多种信息，比如视频中可以获得场景信息与人物信息、文本特征可以获取关系信息与情节信息、音频特征中可以获得情感信息等等。深度分析这些特征中潜在的信息会获得更多有用的信息。

然而获取语义信息存在极大的挑战，从理论层面来说，机器不理解人的思维方式，这样会导致“语义鸿沟”的现象；数据层面，缺乏规范化标注语料，各模态信息难以解释与关联。因此本教程中提出通过融模态语义理解和多模态语义关联来加深层次语义理解。

成为VIP会员查看完整内容

相关内容

多模态学习

关注 44

现实世界中的信息通常以不同的模态出现。例如，图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如，图像通常表示为特征提取器的像素强度或输出，而文本则表示为离散的词向量。由于不同信息资源的统计特性不同，发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型，可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中，每个模态对应结合了两个深度玻尔兹曼机（deep boltzmann machines）.另外一个隐藏层被放置在两个玻尔兹曼机上层，以给出联合表示。

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

专知会员服务

59+阅读 · 2020年6月30日

【CVPR2020】多模态社会媒体中危机事件分类

专知会员服务

55+阅读 · 2020年4月18日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日