AAAI'22 | "简单"的无监督图表示学习

2022 年 3 月 23 日 图与推荐

今天给大家介绍的是电子科技大学石小爽教授团队于2022年发表在AAAI上的一篇论文:“Simple Unsupervised Graph Representation Learning ”。作者提出了一种简单的无监督图表示学习方法来进行有效和高效的对比学习。具体而言，通过构造多重损失探索结构信息与邻域信息之间的互补信息来扩大类间变化，并通过增加一个上限损失来实现正嵌入与锚嵌入之间的有限距离来减小类内变化。因此，无论是扩大类间变异还是减少类内变异，都能使泛化误差很小，从而得到一个有效的模型。此外，作者的方法消除了以往图对比学习方法中广泛使用的数据增强和鉴别器，同时可以输出低维嵌入，从而得到一个高效的模型。在各种真实数据集上的实验结果表明，与最先进的方法相比，该方法是有效和高效的。

1 引文

由于图神经网络的广泛应用，无监督图表示学习(Unsupervised Graph Representation Learning，UGRL）最近也得到了广泛关注，它不需要大量标记节点进行训练。UGRL能够通过同时学习表示并保持样本的局部结构来输出有区别的表示，区别表示确保下游任务输出有效的模型，使UGRL在实际应用中表现出显著的性能，对比学习作为UGRL的代表方法之一，被提出以最大限度地提高输入内容与其相关内容之间的互信息。图对比学习方法的主要区别在于输入内容及其相关内容的定义，通过各种数据增强，例如属性掩蔽或边缘扰动，最大化每个节点两视图之间的MI。虽然之前的方法在表示学习的许多任务中都是有效的，但它们通常依靠数据增强来生成输入内容及其相关内容，以实现MI最大化，这导致了训练过程的昂贵计算成本。因此，以往的方法通常都是低效的，特别是对于大规模的数据集，如图1所示，以往的方法随着样本数量或嵌入维数的增加，计算成本会急剧增加。

因此，数据增强(包括数据生成和数据编码)的计算成本约占训练时间的20%-40%。其次，现有作品增加了嵌入的维数，提高了表示质量，从而增加了训练时间。第三，以往的工作通常为目标函数设计一个鉴别器(包含可学习参数)，大约占用了10%-30%的训练时间。显然，找到一种对训练过程具有低计算成本和高质量表示的UGRL方法是很有趣的。

2 模型框架

本文提出了一种新的对比学习方法，即简单无监督图表示学习(Simple Unsupervised Graph Representation learning, SUGRL)，以实现表示学习的有效性和可扩展性，如图2所示。具体而言，作者首先在具有语义信息的输入表示上采用多层感知器(MLP)生成锚点嵌入，然后分别采用图卷积网络(GCN) 和邻居采样方法生成两种不同类型的正嵌入，然后对锚杆嵌入采用逐行随机排列方法生成负嵌入。作者进一步设计了一种新的多重值损失来强制锚点嵌入接近正嵌入而远离负嵌入，在缩小类内变异的同时扩大内间变异。模型框架如下所示：

2.1 锚点嵌入和负嵌入生成

往常的方法生成锚嵌入通常是使用GCN，本文作者在输入X上使用MLP来生成带有语义信息的锚嵌入。

其中

，

是激活函数，

是第l层的权重矩阵，对于负嵌入的生成，常用的方法是从原始图中得到一个损坏的图，然后对其用GCN进行处理。相比之下，作者直接对锚点嵌入行洗打乱，得到负嵌入，进一步减少了训练时间。

综上所述，作者提出的方法在保持其有效性的同时，通过去除生成锚点和负嵌入的GCN，降低了计算成本。

2.2 正嵌入生成

现有研究一般将结构信息视为正嵌入，此外，在以往的研究中，也经常采用数据增强的方法来获取不同的信息来进行有效的对比学习。相比之下，在本文中，作者提出通过生成两种正嵌入，即结构嵌入和邻域嵌入来获取不同的信息。具体来说，作者采用了GCN和邻居抽样方法来生成它们。

2.2.1 结构信息

为了获取图的结构信息，作者采用了广泛使用的GCN作为基编码器：

其中

，

代表第l层的特征。

是标准化的邻接矩阵，

是

的度矩阵，

是单位矩阵，作者这里的权重矩阵

和上文MLP中的是同一个，以此来降低时间成本。

2.2.2 邻域信息

为了得到具有邻居信息的正嵌入，作者首先存储所有节点的邻居嵌入索引，然后对其进行抽样，然后计算样本的平均值。这样可以有效地获取节点的邻居信息：

其中m为采样邻居的个数，Ni表示节点vi的一阶邻居集合。

总的来说，结构嵌入和邻居嵌入分别表示关注所有邻居和邻居的某一部分。即结构嵌入是一般表示，而相邻嵌入是特定表示。因此，他们从不同的角度解释样本，从而将它们放在一起考虑，可能获得它们的互补信息。

2.2.3 多重损失

考虑到锚点嵌入、正嵌入和负嵌入，对比学习的目的是使正对(即锚点和正嵌入)紧密结合，而使负对(即锚点和负嵌入)远离。许多对比学习方法都设计了一个鉴别器(如双线性层)来区分正对和负对，但这个鉴别器非常耗时。此外，减小泛化误差对UGRL来说也很重要，因为在训练过程中如果泛化误差小，可能会提高对比学习的泛化能力，而减小类内变异或扩大类间变异已被证明是降低泛化误差的有效方法。

在SUGRL中，作者以三态损失为基础，设计一个上限损失来去除作者方法中的鉴别器(效率)，减少类内变异，扩大类间变异(效率)。具体来说，每个样品的三重损失可以表示为：

其中

是相似度测量方法，

是一个非负值来确保正负样本之间的安全距离。通过对所有负样本求和，上式能扩展为：

其中

，k是负样本的个数。为了增加类间差异，作者拉大正负样本之间的距离。为了达到以上目的，作者在两个不同类别的正样本上执行以下操作：

根据以上两个式子，可以得到两种情况，即

和

，如果

，

在上面第二个式子中可能为零，而在第一个式子中依旧不为0，从而可以进一步优化，使类间距离变大，同样，第二种情况也可以继续使类间距离变大。根据以上分析，Case 1或Case 2都可以放大类间变异。特别是如果其中一种无效，另一种仍将有效，进一步扩大类间的差异。上式表明

和

之间的距离应该要比

大，但它忽略了锚点和正嵌入之间的距离。如果锚点与正嵌入之间的距离较大，上述两个式子的值依旧可以非零，这种情况下，节点间的内部差异就很大，不利于模型的整体优化。为了解决这个问题，作者通过以下目标函数研究了负对和正对的上界(即α + β)：

其中β为非负参数。上限α + β保证了负嵌入与锚点之间的距离是有限的，因此正嵌入与锚点之间的距离也是有限的，由式

可知。因此，类内间的差异减少了。上式在累加负样本的损失之后，可以写为：

其中

。最后，将上述损失整合，可以表示为：

其中ω1和ω2分别是LS和LN的权值。

3 实验

3.1 数据集

在实验中，作者使用了8个常用的基准数据集，包括3个引文网络数据集(即Cora, Citeseer和Pubmed) ， 2个亚马逊销售数据集(即照片和计算机)，3个大型数据集(即Ogbn-arxiv、Ogbn-mag和Ogbn-products) 。

3.2 对比方法

对比方法包括1种传统算法(即DeepWalk )， 2种半监督学习算法(即GCN 和GAT )，以及8种非监督学习算法(即Graph Auto-Encoders (GAE) ，变分图自动编码器(VGAE)、DGI 、GRACE 、GMI 、MVGRL和GCA 、GIC 。

3.3 实验结果

表1和表2总结了所有方法在8个实际图结构数据集上的分类精度和执行时间。

首先，SUGRL在分类精度方面优于所有自监督方法(如DGI、GMI、GRACE、MVGRL、GIC和GCA);例如，作者的方法与最差的方法DGI和最好的比较方法MVGRL相比，平均分别提高了4.0%和1.9%。与学习过程中采用标签信息的半监督方法(GCN和GAT)相比，SUGRL也取得了更好的性能。其次，作者的SUGRL的效率是最好的。在8个数据集上，与其他自监督方法相比，SUGRL分别比最慢的比较方法GMI和最快的比较方法GIC平均快了122.4和4.4。

总之，作者的方法在几乎所有数据集上，在模型性能和执行时间方面，在节点分类方面都优于其他比较方法。原因可以总结如下。首先，SUGRL综合考虑结构信息和邻域信息，生成两种正嵌入及其损失函数，这可以将负嵌入推离锚嵌入更远(即实现较大的类间变异)。其次，SUGRL采用一个上界来保证正埋点和锚埋点之间的距离是有限的(即实现较小的类内变化)。第三，SUGRL去掉了数据增大和鉴别器的步骤，大大减少了训练时间。最后，SUGRL可用于输出低维高质量的嵌入，在保持模型有效性的同时减少训练时间。

3.4 消融实验

SUGRL考虑三种信息，即语义信息、结构信息和邻居信息，生成两种具有对应对比损失的正对(LS和LN)。为了验证框架中各成分的有效性，作者分别研究了结构信息、邻居信息和上界的有效性，以及对比损失中各成分的有效性。

类内和类间差异之比的有效性。考虑到类内和类间变化的大小不同，将比率归一化为[0,1]，在图3的数据集Photo上报告类内与类间变化的比率。首先，与本文方法相比，没有结构或邻居信息的方法通常输出更大的比率(即更小的类间变异)。二是无上界的方法，与作者的方法相比，还会输出更大的比率(即更大的类内变量)。这样就可以验证结构信息、邻居信息或上界信息的有效性。

4 结论

在本文中，作者设计了一个简单的框架，即简单无监督图表示学习(SUGRL)，以实现有效和高效的对比学习。为了获得有效性，作者设计了两个三重组损失函数来探索结构信息和邻居信息之间的互补信息，以扩大类间的变化，以及一个上限损失来减少类内的变化。为了提高算法的效率，作者设计了一种去除GCN的生成锚点和负嵌入的方法，并从之前的图对比学习中去除数据增强和鉴别器。作者对各种真实世界的数据集进行了全面的实验，实验结果表明，作者的方法在准确性和可扩展性方面都优于目前最先进的方法。

参考文献：

https://www.aaai.org/AAAI22Papers/AAAI-3999.MoY.pdf

登录查看更多