现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

精品内容

《多模态3D场景理解》最新综述
专知会员服务
145+阅读 · 2023年10月28日
基于多模态学习的虚假新闻检测研究
专知会员服务
25+阅读 · 2023年9月8日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
27+阅读 · 2023年8月28日
Meta-Transformer:多模态学习的统一框架
专知会员服务
56+阅读 · 2023年7月21日
「视觉语言预训练」最新2023综述
专知会员服务
62+阅读 · 2023年5月7日
深度学习在癌症诊断、预后和治疗选择中的应用
专知会员服务
49+阅读 · 2022年6月18日
CVPR2022 Oral | 多模态学习中的贡献不平衡问题
专知会员服务
26+阅读 · 2022年4月21日
参考链接
微信扫码咨询专知VIP会员