SIGIR 2022 | 当多层级遇到多兴趣：快手联合武汉大学提出用于序列推荐的多粒度神经模型

2022 年 6 月 1 日 机器之心

机器之心专栏

机器之心编辑部

来自快手和武汉大学的研究者通过结合多兴趣学习和多层级图卷积聚合提出了一种多粒度神经模型，显著增强了精确学习用户复杂行为的能力，对用户不同层级下多种兴趣的细粒度建模为序列推荐领域的前沿研究拓宽了方向。该研究已被今年的 SIGIR 会议录取为长论文。

随着大众获取信息方式的移动化和碎片化，短视频分享平台（如快手、抖音）逐渐成为人们生活中获取信息和休闲娱乐的重要渠道。不断突破记录的 DAU 一方面伴随着巨大的商业价值，另一方面也给千人千面的推荐算法带来巨大的挑战。

在快手单列的流式推荐场景下，用户观看视频的序列化行为对于建模用户动态兴趣有着至关重要的作用。序列推荐旨在根据用户的行为历史来识别用户偏好的下一个商品 / 视频，但是传统序列推荐方法往往使用单个向量表征用户的动态兴趣。由于用户的观看历史中的兴趣是多样的，因此仅建模用户单一的动态兴趣很难达到理想的推荐效果。如何同时准确地捕捉用户动态且多样的兴趣，是当前短视频流式推荐的痛点。

图 1 两个真实用户在电商和短视频场景的部分历史序列

具体来说，现有的序列推荐工作将用户的复杂偏好简单表征成一个单一的载体来集中建模用户偏好的序列模式，但不可避免地导致用户不同兴趣之间的歧义。比如在电商场景下，图 1(a) 这个用户的简短点击历史中有两个主要的兴趣：运动（Sports）和游戏（Games），显然用传统的单一向量同时表征两个兴趣是困难的。而图 1(b) 的短视频交互序列则反映了用户的兴趣是具有不同粒度的，卡通（Cartoon）这一粗粒度兴趣中还包含更细粒度的兴趣点，即如图 2 所示 IP 层面的《猫和老鼠》（Tom & Jerry）、《海绵宝宝》（SpongeBob Squarepants），这同样也是传统方法不容易学习到的。

图 2 用户粗粒度兴趣之间存在的兴趣重叠现象

为了解决上述问题，最近的努力主要遵循两个改进方向：多兴趣学习和图卷积聚合。一方面，像 ComiRec 和 MIMN 这样的多兴趣模型专注于通过执行历史商品聚类来为用户提取不同的兴趣。然而，所有这些多兴趣方法都将商品 / 视频作为最小兴趣建模单元，缺乏对复杂、动态和高阶用户行为进行建模的能力。例如，图 1（a）和图 2（a）中所展示的现实场景下常见的兴趣重叠现象，用户主要关注 Sports 和 Games 两个兴趣，但值得注意的是，第 t 和第 t-2 个时间戳下交互的视频对两个兴趣的建模都有影响，而这种影响在现有方法中则很难被准确分解。

论文地址: https://arxiv.org/abs/2205.01286

另一方面，包括 TGSRec 和 SURGE 在内的图卷积聚合方法则选择将序列建模与图神经网络结合起来。基于历史商品之间的多级相关性来细化用户不同层级的偏好。然而，与多兴趣解决方案相比，这些方法忽略了多兴趣分解的好处。不幸的是，当前工作都没有意识到上述两种解决方案可以相互补充：通过聚合多级用户偏好来实现更精确的多兴趣提取以获得更好的推荐。总而言之，如何以多粒度的方式对多个兴趣进行建模是这篇论文旨在解决的问题。

这项研究提出了一个统一的多粒度神经模型 Multi-Grained Neural Model，简称 MGNM。通过结合多兴趣学习和图卷积聚合，达到对用户多粒度兴趣最佳的建模效果。该方法首先为用户学习历史交互商品的图结构和信息聚合路径；然后执行图形卷积以迭代的方式推导出商品表示，用来捕获用户在不同层级上的复杂偏好；接着通过提出的序列胶囊网络，将序列模式注入到多兴趣提取过程中，从而以多粒度方式实现更精确的兴趣学习。对来自不同场景的三个真实世界数据集的实验证明了 MGNM 相对于最先进基线的优越性。进一步的分析还表明，MGNM 在对多粒度级别的用户偏好理解方面是鲁棒且有效的。

方法

具体来说，所提出的 MGNM 模型由两个主要组件构成：用户感知图卷积和序列胶囊网络。用户感知图卷积组件将原始序列转换为用户感知的自适应图，通过执行图卷积以迭代地方式推导出商品表示，用于捕获用户不同级别偏好。序列胶囊网络组件将时间序列信息引入传统胶囊网络来提取多兴趣的序列化模式。通过多层级和多兴趣的结合，能够更加准确的建模用户的多粒度兴趣。MGNM 网络的架构如图 3 所示。

图 3 MGNM 的网络架构

A. 用户感知图卷积

为了从用户历史序列中提取复杂和高阶的用户兴趣，该研究利用图结构来自适应的建模不同历史商品之间的相关性距离。给定用户的历史行为序列，首先将商品序列转换为一个全连接商品图如图 4(1)，而不同商品之间的距离根据用户嵌入以及两个商品的嵌入联合计算得到。用户嵌入被用来实现用户感知的图构建。也就是说，相同的两个商品对对于不同的用户可能具有不同的相关性值。通过这种自适应的图连接方式，在训练过程中梯度通过更新商品和用户的嵌入，进而调整图的连接方式。同时为了使得兴趣图具有足够的辨别力，研究人员在邻接矩阵上添加 L1 正则化来逼近一定的稀疏度。最终利用自适应的用户历史兴趣图，通过用户感知的图卷积得到 L 层的卷积输出见图 4(2)。每一层输出的商品表征代表不同层级的商品信息，对应着后续提取不同层级的用户兴趣，卷积的层数越多表示用户的兴趣越高阶越复杂。

B. 序列胶囊网络

在提取多级商品表征后，模型利用胶囊网络对用户每个层级的历史商品序列分别提取出 K 个兴趣向量。但是标准的动态路由机制缺少时序信息，这样就会导致胶囊网络无法捕捉用户兴趣的变化，而现有研究已经证明时序特征对于序列推荐中的兴趣建模具有非常大的影响。因此，在动态路由的第一次迭代过程中，作者采用 BiLSTM 对序列进行时序编码如图 5 所示。在第一次迭代过程之后，模型利用带有时间特征的输出对动态路由的权重通过残差结构进行更新。其中 BiLSTM 用于向胶囊网络中增加时间建模能力，弥补了标准胶囊网络在序列建模问题下的缺陷。最终，每个层级的序列商品表征都经过序列胶囊网络得到对应用户的 K 个兴趣向量。

图5 时序胶囊网络对行为建模

C. 预测

为了对给定候选商品 / 视频进行概率预测，对于单一层级的 K 个兴趣向量，模型采用基于注意力机制的方式进行聚合，L 个层级的 K 个兴趣向量分别聚合得到 L 个层级兴趣向量。考虑到不同用户的交互习惯不同，即有可能被高阶或者低阶的兴趣影响，模型利用最大池化层（max-pooling）从 L 个层级兴趣向量中选择概率评分最大的层级，其得分作为最终预测概率，如图 3 C 所示。

图6 用 Maxpooling 选择概率最大的层级

实验结果

为了证明提出的 MGNM 模型的有效性，研究者在短视频场景和电商场景的三个数据集上进行了实验，数据集的统计结果如表格 1 所示。与现有最佳的基线模型进行对比，该研究提出的模型在 AUC、NDCG、MRR 和 HIT 等推荐指标上取得了显著提升，实验结果如表格 2 所示。

表 1. 三个数据集的统计结果

从表 2 可以看出，该研究提出的 MGNM 模型在 Micro-video 和 Toys and Games 数据集上所有指标均为最优。而在 Music Instruments 数据集上，GAUC 和 NDCG 的表现分别低于 TGSRec 和 SLi_rec，研究者强调这是由于这两个方法是基于序列时间戳特征的基线，所以和其它方法相比它们多了一维精细化的时间戳编码特征（其它基于序列模型的方法仅利用了时间先后顺序），不过即使如此 MGNM 仍然在 HIT 和 MRR 两个指标上达到最优。

表 2. 在三个数据集上不同方法的性能比较

为了验证模型各模块和研究创新点的有效性，本文做了详细的消融研究。表 3 的实验结果证明了用户感知图卷积 (UGCN)、邻接矩阵 A 上的 L1 正则化 (L1Norm)、顺序编码层的顺序胶囊网络 (BiLSTM) 和基于最大池的预测 (MaxPool)等关键创新模块的重要作用。此外，作者还研究了若干顺序胶囊网络的变体（BiLSTM，SumPool，SelfAtt，Transformer），验证了在胶囊网络中引入序列模式的必要性，以及采用像 BiLSTM 这样的轻量级序列模型足以达到令人满意的效果。

表 3. 在 Toys and Games 数据集上的消融实验。

由于提出模型旨在同时捕捉用户多层级下的多兴趣，研究者对模型中控制兴趣层级的图卷积层数 L 和控制兴趣数量的胶囊网络数 K 进行了超参实验。一方面，较大的 L 值（L ≤ 3）可以聚合更远的高阶邻居来推导出用户的高层级偏好，但是过大的设置 L 值（L > 3）也会带来一些嘈杂的信息并产生不利影响。另一方面，单个兴趣表示（即 K = 1）在四个指标中的表现最差。当 K 在 [3, 5] 范围内时，MGNM 实现了相对更稳定的性能，验证了多兴趣建模的重要性。此外，Toys and Games 和 Micro-video 数据集的最佳 K 值分别为 2 和 4，这与短视频数据集的语义空间比电商数据集要广泛得多的直觉一致。

图 4：不同 L 值在 Toys and Games 和 Micro-video 数据集上的表现。

图 5：不同 K 值在 Toys and Games 和 Micro-video 数据集上的表现。

为了进一步验证多层级兴趣建模的作用，该研究分别在 Micro-video 和 Toys and Games 两个数据集上对不同用户的兴趣粒度分布做了抽样可视化。通过基于最大池化（max-pooling）预测器计算用户对正样本商品 / 视频的偏好级别，图 6 和图 7 分别绘制了两个数据集上每个用户对其交互商品 / 视频下激活级别的分布，颜色越深代表该层级下的预估值越高。

图 6. Micro-video 场景下 multi-level 用户兴趣分布可视化

图 7. Toys and Games 场景下 multi-level 用户兴趣分布可视化

可以观察到，为不同用户推荐不同商品 / 视频时所需的偏好级别是完全不同的。图 7 表明，MGNM 的前两层（即 L < 2）对于 Toys and Games 数据集的大多数用户来说已经足够了，但是对于少数用户则需要推导出的高级偏好（即 L ≥ 2）。图 6 表明，对于语义空间较大的 Micro-video 数据集，高级偏好的作用对所有用户来说变得更加重要。研究者认为，用户对短视频的偏好更高代表了用户对短视频场景的兴趣层级更高、更复杂、变化更快。因此，这一现象很好地证明了多层级机制的有效影响。

此外，在推理阶段，研究者将最大池化（max-pooling）替换为求和池化（sum-pooling）并测试了模型性能，图 8 中的结果进一步量化了模型中多层级兴趣提取结构的影响。

图 8. 推理阶段 MGNM 的最大池化与总和池化

总结

本研究主要利用图模型建模用户多层级（multi-level）历史行为表征、利用时序增强的胶囊网络提取用户多兴趣（multi-interest）兴趣向量。提出的 MGNM 细粒度神经序列推荐模型，在三个真实推荐场景数据集中均有比较突出的表现。同时大量实验和可视化分析证明了 multi-level 和 multi-interest 建模思想对推荐表现提升的重要影响。