©PaperWeekly 原创 · 作者|陈凌灏
单位|西安电子科技大学本科生
研究方向|数据挖掘
随着 Deep Learning 的爆火,图数据挖掘和 CV、NLP 等领域一样,存在着“爆发式”发展的趋势。更加准确地说,笔者认为图数据挖掘正处在爆发的前夜。本文主要从基于图结构的表示学习和基于图特征的表示学习两个角度简要介绍图表示学习的现状和自己的认识。
在非图的表示学习中,研究者们主要考虑的是每一个研究对象的特征(姓名、年龄、身高等)信息。然而,研究对象是存在于客观世界的主体,存在一定的图结构信息(QQ、微信好友,师生关系等都构成了图网络)。如何对图结构进行表示学习以表示图的结构信息是一个很重要的 topic。
图表示学习的主要目标是:将结点映射为向量表示的时候尽可能多地保留图的拓扑信息。图表示学习主要分为基于图结构的表示学习和基于图特征的表示学习。
▲ 图1:基于图结构的表示学习
▲ 图2:基于图特征的表示学习
基于图结构的表示学习
在我们的图表示学习中,我们希望 Embedding 出来的向量在图上“接近”时在向量空间也“接近”。对于第 2 个“接近”,就是欧式空间两个向量的距离。对于第一个“接近”,可以有很多的解释:
因此,针对上述的一些观点,就有了下列的模型:
DeepWalk [1] 的方法采用了 Random walk 的思想进行结点采样。
具体参见图 3,我们首先根据用户的行为构建出一个图网络;随后通过 Random walk 随机采样的方式构建出结点序列(例如:一开始在 A 结点,A->B,B 又跳到了它的邻居结点 E,最后到 F,得到"A->B->E->F"序列);对于序列的问题就是 NLP 中的语言模型,因为我们的句子就是单词构成的序列。
接下来我们的问题就变成 Word2vec(词用向量表示)的问题,我们可以采用 Skip-gram [2] 的模型来得到最终的结点向量。可以说这种想法确实是十分精妙,将图结构转化为序列问题确实是非常创新的出发点。
▲ 图3:DeepWalk(图源:阿里的paper)
▲ 图5:p、q取值不同时结点的游走趋势
基于图特征的表示学习
Graph Convolutional Networks [6](图卷积网络)是非常基本第一个 GNN 模型。在讨论 GCN 之前,我们先来看一下 CNN(卷积神经网络)是怎么做卷积运算的。如图 6 所示,CNN 的两个主要特点是局部感知与权值共享。换句话说,就是聚合某个像素点周围的像素特征。
▲图6:卷积神经网络示意
结点聚合应该满足:
根据上述的几点原则,作者提出了几种聚合方式:
平均/求和聚合算子(mean/sum):
▲ 图7:图注意力机制示意
node2vec 原理介绍及实践 [11]
[论文笔记] node2vec [12]
深度学习中不得不学的 Graph Embedding 方法 [13]
图卷积网络 GCN Graph Convolutional Network(谱域GCN)的理解和详细推导-持续更新 [14]
GCN作者blog [15]
图深度表示(GNN)的基础和前沿进展视频 [16]
唐杰-图神经网络及认知推理-图神经网络学习班视频 [17]
图网络学习算法——从GraphSAGE,GAT到H-GCN [18]
联系我:xdu.lhchen at gmail.com
参考链接
[1] https://arxiv.org/pdf/1403.6652.pdfhttps://arxiv.org/pdf/1403.6652.pdf
[2] https://arxiv.org/pdf/1301.3781.pdf
[3] https://arxiv.org/pdf/1607.00653.pdf
[4] https://www3.nd.edu/~dial/publications/dong2017metapath2vec.pdf
[5] https://arxiv.org/pdf/1503.03578.pdf
[6] https://arxiv.org/abs/1609.02907
[7] https://papers.nips.cc/paper/6703-inductive-representation-learning-on-large-graphs.pdf
[8] https://arxiv.org/pdf/1710.10903.pdf
[9] http://www.thushv.com/natural_language_processing/word2vec-part-1-nlp-with-deep-learning-with-tensorflow-skip-gram
[10] https://zhuanlan.zhihu.com/p/29305464
[11] https://zhuanlan.zhihu.com/p/39105752
[12] https://zhuanlan.zhihu.com/p/46344860
[13] https://zhuanlan.zhihu.com/p/64200072
[14] https://blog.csdn.net/yyl424525/article/details/100058264
[15] http://tkipf.github.io/graph-convolutional-networks/
[16] https://www.bilibili.com/video/av83519765?from=search&seid=13216707505562731124
[17] https://www.bilibili.com/video/av77934956/?spm_id_from=333.788.videocard.1
[18] https://zhuanlan.zhihu.com/p/74345718
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。