图上的归纳表示学习

2017 年 11 月 9 日 科技创新与创业 宋卫平，刘卢琛

简介：

Network Embedding 旨在为图中的每个顶点获得特征表示。近年的Deepwalk,LINE, node2vec, SDNE, DNGR等模型能够高效地、直推式（transductive）地得到节点的embedding。然而，这些方法无法有效适应动态图中新增节点的需求，往往需要从头训练或至少局部重训练。本篇文章提出一种适用于大规模网络的归纳式（inductive）学习方法-GraphSAGE，能够为新增节点快速生成embedding，而无需额外训练过程。

模型：

大部分直推式表示学习的主要问题有：

1）缺乏权值共享（Deepwalk, LINE, node2vec）。节点的embedding直接是一个N*d的矩阵，互相之间没有共享学习参数。

2）输入维度固定为|V|。无论是基于skip-gram的浅层模型还是基于autoencoder的深层模型，输入的维度都是点集的大小。上面两个问题限制了模型泛化到动态图的能力，新增节点会导致点集扩大到|v'|，而原始网络的输入只能是|V|。

因此，本文提出了一个邻居聚集的方法。主要步骤分为三部分：

1）邻居采样。因为每个节点的度是不一致的，为了计算高效，为每个节点采样固定数量的邻居。

2）邻居特征聚集。通过聚集采样到的邻居特征，更新当前节点的特征。网络第k层聚集到的邻居即为BFS过程第k层的邻居。

3）训练。既可以用获得的embedding预测节点的上下文信息（context），也可以利用embedding做有监督训练。

采样过程使用均匀采样；聚集函数分别试验了MEAN,LSTM,Pooling；训练时的损失函数定义为：

可以看出，也是采用了负采样的优化方法。在训练好网络的参数后，生成新加入节点的方式是：

实验：

本文选用了Citation，Reddit和PPI数据集，在inductive learning任务上，GraphSAGE远远超过其它基准模型，尤其是在有监督任务上。在PPI数据集上，即使是在训练过程中完全未见过的图上也有很好的泛化性能。

总结：

GraphSAGE是inductive network embedding领域的重要工作，使得动态图的嵌入变得高效，但是邻居采样以及特征聚集方法仍有可提升空间。这篇文章受到了广泛地关注，后续很多工作都是在此工作上的拓展和提升，比如将邻居的均匀采样过程用attention来替代，赋予不同邻居不同的权重等。

根据论文启发，对应综合动态静态结合的数据的建模思路。数据：静态信息 ---multi-hot形式的向量，表示商品的静态属性。动态信息---是用户行为对每个商品的行为的异构事件序列。背景信息---如时间节日，季节等。问题：动态地推荐Top-N商品。

登录查看更多

相关内容

表示学习

关注 186

表示学习是通过利用训练数据来学习得到向量表示，这可以克服人工方法的局限性。表示学习通常可分为两大类，无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器（如去噪自动编码器和稀疏自动编码器等）中的隐变量作为表示。目前出现的变分自动编码器能够更好的容忍噪声和异常值。然而，推断给定数据的潜在结构几乎是不可能的。目前有一些近似推断的策略。此外，一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架，该框架使用矩阵分解来保持成对的DTW相似性。通过学习保持DTW的shaplets，即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息，更好地捕获数据的语义结构。孪生网络和三元组网络是目前两种比较流行的模型，它们的目标是最大化类别之间的距离并最小化了类别内部的距离。

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

【ICML2020】对比多视角表示学习

专知会员服务

53+阅读 · 2020年6月28日

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知会员服务

80+阅读 · 2020年6月11日