现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

VIP内容

为了更好的用户体验和业务效能,点击率(CTR)预测一直是电子商务中最重要的任务之一。虽然已经提出了大量的CTR预测模型,但从多模态特征中学习项目的良好表示仍然较少研究,因为电子商务中的一个项目通常包含多个异质模态。以往的作品要么将多个模态特征串联起来,相当于给每个模态一个固定的重要性权重;或者通过注意力机制等技术学习不同项目不同模式的动态权重。然而,一个问题是,通常存在跨多个模态的公共冗余信息。利用冗余信息计算不同模态的动态权值,可能不能正确反映不同模态的不同重要性。为了解决这个问题,我们通过考虑模态特性和模态不变特性来探索模态的互补性和冗余性。针对CTR预测任务,我们提出了一种新的多模态对抗表示网络(MARN)。多模态注意网络首先根据每个项目的模态特征计算其多模态的权重。然后,一个多模态对抗网络学习模态不变表示,在此基础上引入双鉴别器策略。最后,我们将模态特定表示与模态不变表示相结合,实现了多模态项表示。我们在公共数据集和工业数据集上进行了大量的实验,所提出的方法不断地对最先进的方法进行显著的改进。此外,该方法已应用于实际的电子商务系统,并在网上进行了A/B测试,进一步证明了该方法的有效性。

成为VIP会员查看完整内容
0
14
Top