对比学习作为一种自监督式的深度学习范式,在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受 这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供 了坚实的基础。该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归 纳。为了更好地帮助相关领域的研究者,该文梳理了近些年来的图对比学习模型,通过将现有工作归纳到一个统 一的框架下,突出其发展脉络。最后该文总结了图对比学习常用的数据集和评价指标,并展望了该领域未来的发 展方向。

1 引言

图数据是一种描述物体和物体之间关联关系的 抽象数据类型,它广泛存在于各个领域。例如,在社 交网络中,用户和用户之间的关注关系构成了社交 关系图;在化学领域,原子和它们之间的化学键构成 了化合物分子图;在物流领域,城市和它们之间的道 路构成了交通路网图[1-2]。作为实际场景中最常见 的信息载体,图数据蕴含着丰富信息,因此对图数据 的分析研究具有重要的价值。能否很好地感知与理 解图数据,从中挖掘有用的信息,是解决很多实际问 题的关键。例如,链接预测、节点分类、社区发现、推 荐 系 统、新 药 发 现 等 都 是 与 图 数 据 相 关 的 实 际问题[1-2]。 传统的图数据分析通常采用监督学习的框架,即 通过人为特征提取或端到端图深度学习模型将图数 据作为输入,经过训练后,挖掘图数据中的有效信息, 输出预测结果[3-4]。虽然这类图监督学习方法在很多 任务上取得了显著成功,但仍面临着以下问题:①依 赖大量的人工标注数据;②由于过拟合导致泛化能 力差以及面向标签相关的攻击时模型鲁棒性差[5]。 为了解决上述问题,不依赖于人工标注的自监 督学习正在成为图深度学习的趋势[1-2,6-7]。其中,对 比学习是一类重要的自监督学习方法,随着其在计 算机视觉、自然语言处理等领域取得成功[8],如何将 对比学习应用在图数据上,开始受到研究者的关注。 图数据比语音、文本、图像更加复杂,如何设计有效 的图对比学习模型仍面临着诸多挑战。

为了更好地帮助该领域的发展,已有研究者梳 理了近些年来关于图自监督学习的相关工作,并且 形成综述[5,7,9-10]。但这些综述主要关注传统的图上 自监督任务,并没有针对图对比学习的方法进行详 细的梳理和分类。本文主要关注图对比学习模型, 收集整理了近些年图对比学习的工作。同时本文在 统一的框架下对比现有的方法,突出现有工作的异 同点及其发展脉络,从而帮助研究者更好地梳理现 有工作,期望能激发对图对比学习方法新的思考。 本文组织结构如下:第1节介绍图对比学习问 题及其涉及的相关背景知识,并给出形式化定义; 第2节梳理了节点级的图对比学习方法;第3节整 理了边级别的图对比学习;第4节整理了图级别的 图对比学习方法;第5节整理介绍了将图对比学习 应用在更复杂场景下的拓展;第6节总结了常用的 评价数据集和评价指标;第7节分析整理了图对比 学习现存的问题和未来可能的发展方向;最后一节 对全文进行了总结。

1 问题定义和相关背景

对比学习是一种判别式的学习方法,其目的是 让相似的样本学到相近的表示,同时让不相似样本 的表示互相远离。对比学习在文本[19]、语音[20]、图 像[21-25]等领域取得了显著的效果提升,受到了广泛 关注。对比学习在这些领域取得成功,为研究者设 计图对比学习的框架打下了坚实的基础。 图对比学习期望学到一个编码模型,使得相似 的节点(图)经过编码模型后得到相似的表示,不相 似的节点(图)得到差异较大的表示。现有的方法可 以总结成一个统一的框架,如图1所示,首先定义正 负例并利用正例生成器和负例生成器分别得到正负 样本。接着将这些样本输入到编码模型后得到对应 的表示。最后设计一个将正负样本表示区分开的损 失函数,进行参数优化。 目前的图对比学习方法在设计时主要关注:① 正负例的定义与产生方式;②编码模型的架构;③损 失函数的形式。我们在图1中用虚线框出了这三 部分。应用图对比学习的典型范式如图2所示,包括 无监督表示学习、无监督预训练、辅助学习三种方 式[6]。其中,无监督表示学习和无监督预训练是两 阶段的训练范式,辅助学习是一阶段联合优化的训 练范式。无监督表示学习利用对比学习为每个节点 (或图)学习向量表示。接着固定这些表示作为输入 去训练模型解决下游任务。无监督预训练范式,同 样先用对比学习无监督地学习一个编码器。但在解 决下游任务时,不仅利用标签信息更新预测层的参 数,同时也微调编码器的参数。辅助学习范式是指 在主任务损失函数的基础上添加对比学习损失作为 正则项,联合优化这两项损失函数进行参数更新。

2 节点级图对比学习方法

正负例 的 定 义 是 现 有 的 图 对 比 学 习 方 法 关 键,不同的定 义 方 式 需 要 不 同 的 编 码 模 型 和 损 失 函数。根据对比类型可以将现有方法分成实例对 比和跨级别对比两类。实例对比是指同一个样本 的不同增强 样 本 之 间 的 对 比,跨 级 别 对 比 是 指 不 同 级 别 对 象 之 间 的 对 比,例 如,节 点 级 对 象 和 子 图级对 象 的 对 比。 同 时,对 于 每 一 个 模 型,将 从 正负例的 定 义 与 产 生 方 式 以 及 损 失 函 数 的 形 式 两个方 面 进 行 介 绍。 表 1 总 结 了 本 节 介 绍 的 图 对比学习框架,并且 对 比 了 不 同 模 型 使 用 的 增 强 方式。

3 边级别图对比学习

在现实的图中,节点往往表现出同质性,即在图中 相近的节点往往具有相似的性质[1]。例如,存在引用 关系的论文往往属于同一个领域;在社交网络中两个 用户共同好友越多,他们是好友关系的可能性就越高。

4 图级别图对比学习

图级别的对比学习框架在近些年来也受到了广 泛的关注,其在生物、化学、医药领域发挥了关键的 作用。但该领域处于刚起步的节点,因此相比于节 点级的对比学习,图级别对比学习的研究工作相对 较少。 You等人[53]提出的 GraphCL是将基于实例的 节点级图对比学习框架应用到图级别对比学习上的 典型模型,其框架如图13所示。

5 图对比学习的拓展

前文介绍 了 同 质 网 络 上 的 图 对 比 学 习 框 架, 而现实中的 图 数 据 往 往 具 有 复 杂 的 结 构,无 法 直 接应用上述的图对比学习模型。因此一些研究者 开始将 图 对 比 学 习 拓 展 到 不 同 类 型 的 图 上。 此 外,在实际场景中往往会伴随着监督信息,如何将 图对比学习框架和监督信息结合也是一个重要的 拓展方向。

6 图对比学习方法的评价

不同的图对比学习方法的优劣,往往通过其在 下游任务上的表现来评判。常见的下游任务在1.4 节中已经进行了说明,本节主要介绍常用的节点级 任务的数据集和图级任务的数据集以及评价指标。

7 挑战与未来展望

图对比学习框架在节点级任务、边级任务和图 级任务上都取得了成功,但目前仍有如下一些问题 待解决。

7.1 图增强操作

图数据的增强是图对比学习框架中非常重要的 组成部分,其为节点/图提供了更加丰富的上下文信 息,从而帮助节点/图学到更优质的表示。在图像领 域,可以比较容易地确定增强后的图片仍然与原图 片反映同一类别的物体。由于图数据本身就是一种 抽象的数据结构,应用现有的增强操作(如增边删 边,隐藏部分特征维度)后,难以直观判断原来的节 点/图是否保持类别不变。因此设计增强后类别保 持不变的图增强操作是未来重要的发展方向。此外 如何判断哪种数据增强的方式是对于对比学习有效 的,也是一个重要方向。已有工作试图寻找在图像 领域哪种增强是有效的[68],但在图领域仍然等待被 探索。

7.2 基于图对比学习的预训练模型

预训练旨在通过自监督学习从大量数据中学到 通用的语义信息,并将学到的知识迁移到下游的任 务中。目前预训练模型在很多领域都取得了最佳的 效果,具有巨大的发展潜力。图对比学习方法为图 上的大规模预训练奠定了很好的框架基础。 然而,现有的图对比学习主要关注于在同一图 上模型迁移到下游任务上的效果[34,35,39-42,52]。这些 模型未考虑模型跨数据集迁移的能力。虽然近年来 有研究提出了具有一定跨数据迁移能力的图对比学 习模型[45],但该方法只适用于没有属性的同质信息 网络,局限性较大。因此如何设计具有跨数据集迁 移能力的图对比学习模型是未来大规模图预训练应 用中亟待解决的重要问题。

7.3 对比学习的理论分析

虽然对比学习的框架在很多领域都取得了显著的提升,但是该框架为何能提升表示的质量,以及其 和下游任务之间有什么关联、什么样的对比任务更 有效等仍然值得探索。虽然在图像领域有工作开始 分析对比学习有效的原因[69-70],但在图数据领域的 理论分析仍然是空白的。

7.4 实际场景的应用

如何将图对比学习应用在实际场景中提升实际 任务的效果,也是一个潜力巨大的方向。目前有研 究者尝试在推荐系统[71-73]、药物分类[74-75]领域利用 图对比学习解决某些关键问题。因此,如何利用图 对比学习解决更多实际的图分析问题是具有重大研 究意义的方向。

7.5 大规模图上对比学习

现有的图对比学习往往需要大量的负样本,才 能学好节点/图表示。但在实际的场景中,图的规模 往往非常的巨大。因此大量的负样本需要巨大的内 存和计算代价。在图像领域已经有一些工作去探索 如何利用更少的负样本[76],或者不使用负样本的方 式来减少计算代价[46,77]。因此如何设计适用于大 规模网络的图对比学习也是未来发展方向之一。

7.6 更公平的方法对比

本文从方法上对比了不同图对比学习框架的异 同。但由于不同模型适用的数据集不同,实验设定 上也有差异,从而导致难以从实验结果上判定哪个 框架更有效。但是从实验上对比不同模型的优劣对 于图对比学习的发展有着至关重要的作用。因此设 计一个基准实验框架,更公平地对比不同方法也是 一个重要的方向。

8 结束语

基于深度学习的图分析方法在很多任务上取得 显著的效果,而做好节点/图表示是其中的关键。近 年来基于对比学习的表示学习框架在图像等领域取 得了成功,这为图对比学习框架提供了坚实的基础。 本文对近年来出现的图对比学习框架进行了分析总 结,将图对比学习框架总结成三个重要的部分,分别 是正负例的定义方式、编码器模型的设计以及损失 函数的设计三个部分。 本文围绕图对比学习展开,梳理总结了近些年 来重要的图对比学习工作,同时提出了一些仍未被 很好解决的问题,以及未来可能的研究方向,尝试为研究人员建立一个较完整的研究视图,希望能为进 一步推进该领域的研究提供一定的帮助。

成为VIP会员查看完整内容
74

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
《深度神经网络剪枝》最新2023综述
专知会员服务
32+阅读 · 2023年8月17日
「视觉语言预训练」最新2023综述
专知会员服务
63+阅读 · 2023年5月7日
「深度学习视频分析系统」最新2022研究进展综述
专知会员服务
41+阅读 · 2022年11月5日
「多模态处理技术」最新2022研究进展综述
专知会员服务
131+阅读 · 2022年10月29日
「深度学习表情动作单元识别」 最新2022研究综述
专知会员服务
24+阅读 · 2022年10月8日
《元强化学习》最新,70页ppt
专知会员服务
74+阅读 · 2022年9月16日
「深度分层强化学习DHRL」最新2022研究与进展综述
专知会员服务
92+阅读 · 2022年8月6日
「知识蒸馏」最新2022研究综述
专知会员服务
120+阅读 · 2022年3月20日
「图分类研究」最新2022综述
专知会员服务
95+阅读 · 2022年2月13日
个性化学习推荐研究综述
专知会员服务
57+阅读 · 2022年2月2日
「基于课程学习的深度强化学习」研究综述
「多模态处理技术」最新2022研究进展综述
专知
4+阅读 · 2022年10月29日
「高效视觉扩散模型」 最新研究综述
专知
8+阅读 · 2022年10月20日
新人友好,「图学习推荐系统」中文综述
图与推荐
2+阅读 · 2022年9月21日
「图学习推荐系统」最新2022综述
专知
5+阅读 · 2022年9月18日
《元强化学习》最新,70页ppt
专知
2+阅读 · 2022年9月16日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关VIP内容
《深度神经网络剪枝》最新2023综述
专知会员服务
32+阅读 · 2023年8月17日
「视觉语言预训练」最新2023综述
专知会员服务
63+阅读 · 2023年5月7日
「深度学习视频分析系统」最新2022研究进展综述
专知会员服务
41+阅读 · 2022年11月5日
「多模态处理技术」最新2022研究进展综述
专知会员服务
131+阅读 · 2022年10月29日
「深度学习表情动作单元识别」 最新2022研究综述
专知会员服务
24+阅读 · 2022年10月8日
《元强化学习》最新,70页ppt
专知会员服务
74+阅读 · 2022年9月16日
「深度分层强化学习DHRL」最新2022研究与进展综述
专知会员服务
92+阅读 · 2022年8月6日
「知识蒸馏」最新2022研究综述
专知会员服务
120+阅读 · 2022年3月20日
「图分类研究」最新2022综述
专知会员服务
95+阅读 · 2022年2月13日
个性化学习推荐研究综述
专知会员服务
57+阅读 · 2022年2月2日
相关资讯
「基于课程学习的深度强化学习」研究综述
「多模态处理技术」最新2022研究进展综述
专知
4+阅读 · 2022年10月29日
「高效视觉扩散模型」 最新研究综述
专知
8+阅读 · 2022年10月20日
新人友好,「图学习推荐系统」中文综述
图与推荐
2+阅读 · 2022年9月21日
「图学习推荐系统」最新2022综述
专知
5+阅读 · 2022年9月18日
《元强化学习》最新,70页ppt
专知
2+阅读 · 2022年9月16日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员