word2vec, node2vec, graph2vec, X2vec:构建向量嵌入表示理论,120页ppt

7 月 19 日 专知
word2vec, node2vec, graph2vec, X2vec:构建向量嵌入表示理论,120页ppt

【导读】嵌入表示学习是当下研究热点,从word2vec,到node2vec, 到graph2vec,出现大量X2vec的算法。但如何构建向量嵌入理论指导算法设计?最近RWTH Aachen大学的计算机科学教授ACM Fellow Martin Grohe教授给了《X2vec: 构建结构数据的向量嵌入理论》报告,非常干货!



https://sigmod2020.org/pods_keynote.shtml





Martin Grohe是一位计算机科学家,以其在参数化复杂性、数学逻辑、有限模型理论、图形逻辑、数据库理论和描述复杂性理论方面的研究而闻名。他是RWTH Aachen大学的计算机科学教授,在那里他担任离散系统逻辑和理论的主席。1999年,他获得了德国研究基金会颁发的海因茨·梅尔-莱布尼茨奖。他在2017年被选为ACM Fellow,因为他“对计算机科学中的逻辑、数据库理论、算法和计算复杂性的贡献”。



word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data 构建结构数据的向量嵌入理论


图和关系结构的向量表示,无论是手工制作的特征向量还是学习的表示,使我们能够将标准的数据分析和机器学习技术应用到结构中。在机器学习和知识表示文献中,广泛研究了产生这种嵌入的方法。然而,从理论的角度来看,向量嵌入得到的关注相对较少。从对已经在实践中使用的嵌入技术的调研开始,在这次演讲中,我们提出了两种理论方法,我们认为它们是理解向量嵌入基础的中心。我们将各种方法联系起来,并提出未来研究的方向。



典型机器学习算法需要将通常是符号数据表示为数字向量才能在结构化数据上计算。数据的向量表示从手工设计特征到学习表示,或者通过专用的嵌入算法计算,或者通过像图神经网络这样的学习架构隐式计算。机器学习方法的性能关键取决于向量表示的质量。因此,有大量的研究提出了广泛的矢量嵌入方法用于各种应用。这些研究大多是经验性的,通常针对特定的应用领域。考虑到主题的重要性,关于向量嵌入的理论工作少得令人惊讶,特别是当它表示超越度量信息(即图中的距离)的结构信息时。


本文的目的是概述在实践中使用的结构化数据的各种嵌入技术,并介绍可以理解和分析这些嵌入技术的理论思想。矢量嵌入的研究前景是笨拙的,由于不同的应用领域(如社会网络分析、知识图、化学信息学、计算生物学等)的推动,几个社区在很大程度上独立地研究相关问题。因此,我们需要有选择性,关注我们看到的共同想法和联系。


向量嵌入可以在关系数据的“离散”世界和机器学习的“可微分”世界之间架起一座桥梁,因此在数据库研究方面具有巨大的潜力。然而,除了知识图谱的二元关系之外,对关系数据的嵌入所做的工作相对较少。在整个论文中,我将试图指出关于向量嵌入的数据库相关研究问题的潜在方向。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“x2vec” 可以获取《word2vec, node2vec, graph2vec, X2vec:构建向量嵌入表示理论,120页ppt》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

理想情况下,我们希望将两个几何对象插入到一个函数中,然后通过函数来说明它们之间的相似性。这将允许我们回答关于下游应用程序中几何数据的不同层次上的各种问题。然而,对于高级任务,如计算样式相似度或三维形状之间的顶点到顶点映射,直接在原始几何数据上进行这些操作是困难的,因为更抽象的任务需要更结构化的聚合信息。实现这种相似性函数的一种方法是首先计算这些数据到嵌入空间的映射,从而对不同几何元素之间的有意义的关系进行编码,例如在风格上,更相似的形状嵌入得更紧密。通过利用这个嵌入空间,我们可以计算并输出相似度度量。然而,手工构建保存这些属性的映射是很困难的,因为为越来越抽象的任务制定显式规则或模型变得越来越具有挑战性。因此,我们使用了由人类提供的与任务相关的元信息的几何数据集合。这允许我们通过使用神经网络灵活地制定地图计算,而不用对映射图本身的形式做太多假设。为了从广泛可用的机器学习技术中获益,我们必须首先考虑如何选择合适的几何数据表示作为各种学习模型的输入。具体来说,根据数据源的可用性和任务的特定需求,我们从图像、点云和三角形网格计算嵌入。一旦我们找到了对输入进行编码的合适方法,我们就会探索不同的方法来塑造学习到的中间域(嵌入),这超越了直接的基于分类分布的交叉熵最小化方法。

https://sites.google.com/view/geometry-learning-foundation/schedule#h.p_am99P6ELk_gL

成为VIP会员查看完整内容
0
18

题目: Hyperbolic Heterogeneous Information Network Embedding

摘要: 异构信息网络嵌入(Heterogeneous information network, HIN)以将其投射到低维空间为目标,已经引起了相当多的研究关注。现有的HIN嵌入方法主要是在欧几里得空间中保留内部网络结构和语义相关性。然而,一个基本的问题是欧几里得空间是否是HIN的合适的或内在的等距空间?。近年来的研究认为,复杂网络的底层可能具有双曲几何,因为底层的双曲几何可以自然地反映复杂网络的一些特性,如层次结构和幂律结构。在本文中,我们首次尝试将HIN嵌入到双曲空间中。我们分析了两个实际HIN的结构,发现HIN中也存在幂律分布等性质。为此,我们提出了一种新的双曲异构信息网络嵌入模型。具体地说,为了捕获节点之间的结构和语义关系,我们采用元路径引导随机游走对每个节点的序列进行采样。然后利用双曲空间中的距离作为近似度量。双曲距离能满足三角不等式,并能很好地保持HIN中的传递性。我们的模型使节点及其邻域具有小的双曲线距离。进一步推导出有效的优化策略,迭代更新双曲嵌入。实验结果表明,该模型不仅在网络重构和链路预测任务上具有优越的性能,而且在HIN中通过可视化显示了捕获层次结构的能力。

成为VIP会员查看完整内容
0
14

【导读】图表示学习是当下研究的热点之一。HEC 蒙特利尔大学商学院助理教授唐建唐建博士最近总结了《图表示学习》研究进展,总结了他和组里学生们和这些年来在图表示学习方向上比较重要的工作。非常值得学习!

唐建博士自2017年12月起担任Mila(魁北克AI研究所)和HEC Montreal的助理教授。他是加拿大CIFAR第一批人工智能主席(CIFAR AI Research Chair)。他的研究方向是深度图表示学习,在知识图谱、药物发现和推荐系统等领域有着广泛的应用。他是密歇根大学和卡内基梅隆大学的研究员。他在北京大学获得博士学位,并在密歇根大学做了两年的访问学者。他在微软亚洲研究院做了两年的研究员。他在图表示学习(如LINE、LargeVis和RotatE)方面的工作得到了广泛的认可。他获得了ICML ' 14的最佳论文奖和WWW ' 16的最佳论文提名。

个人主页: https://jian-tang.com/

图表示学习:算法与应用

图在现实世界中是无处不在的,涵盖了从社交网络、推荐系统、知识图谱、计算机视觉和药物发现等各种应用。要分析图数据,一个重要的先决条件是要有有效的图数据表示,这在很大程度上决定了大多数下游任务的性能。在本报告中,我将介绍图的学习表示的最新进展,如节点表示学习、图的可视化、知识图谱的嵌入、图的神经网络、图的生成及其在各种任务中的应用。

地址: https://github.com/tangjianpku/tangjianpku.github.io/blob/master/files/GraphRepresentationLearning-Mila-2020.5.pdf

成为VIP会员查看完整内容
0
57

近年来,人们对学习图结构数据表示的兴趣大增。基于标记数据的可用性,图表示学习方法一般分为三大类。第一种是网络嵌入(如浅层图嵌入或图自动编码器),它侧重于学习关系结构的无监督表示。第二种是图正则化神经网络,它利用图来增加半监督学习的正则化目标的神经网络损失。第三种是图神经网络,目的是学习具有任意结构的离散拓扑上的可微函数。然而,尽管这些领域很受欢迎,但在统一这三种范式方面的工作却少得惊人。在这里,我们的目标是弥合图神经网络、网络嵌入和图正则化模型之间的差距。我们提出了图结构数据表示学习方法的一个综合分类,旨在统一几个不同的工作主体。具体来说,我们提出了一个图编码解码器模型(GRAPHEDM),它将目前流行的图半监督学习算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和图表示的非监督学习(如DeepWalk、node2vec等)归纳为一个统一的方法。为了说明这种方法的一般性,我们将30多个现有方法放入这个框架中。我们相信,这种统一的观点既为理解这些方法背后的直觉提供了坚实的基础,也使该领域的未来研究成为可能。

概述

学习复杂结构化数据的表示是一项具有挑战性的任务。在过去的十年中,针对特定类型的结构化数据开发了许多成功的模型,包括定义在离散欧几里德域上的数据。例如,序列数据,如文本或视频,可以通过递归神经网络建模,它可以捕捉序列信息,产生高效的表示,如机器翻译和语音识别任务。还有卷积神经网络(convolutional neural networks, CNNs),它根据移位不变性等结构先验参数化神经网络,在图像分类或语音识别等模式识别任务中取得了前所未有的表现。这些主要的成功仅限于具有简单关系结构的特定类型的数据(例如,顺序数据或遵循规则模式的数据)。

在许多设置中,数据几乎不是规则的: 通常会出现复杂的关系结构,从该结构中提取信息是理解对象之间如何交互的关键。图是一种通用的数据结构,它可以表示复杂的关系数据(由节点和边组成),并出现在多个领域,如社交网络、计算化学[41]、生物学[105]、推荐系统[64]、半监督学习[39]等。对于图结构的数据来说,将CNNs泛化为图并非易事,定义具有强结构先验的网络是一项挑战,因为结构可以是任意的,并且可以在不同的图甚至同一图中的不同节点之间发生显著变化。特别是,像卷积这样的操作不能直接应用于不规则的图域。例如,在图像中,每个像素具有相同的邻域结构,允许在图像中的多个位置应用相同的过滤器权重。然而,在图中,我们不能定义节点的顺序,因为每个节点可能具有不同的邻域结构(图1)。此外,欧几里德卷积强烈依赖于几何先验(如移位不变性),这些先验不能推广到非欧几里德域(如平移可能甚至不能在非欧几里德域上定义)。

这些挑战导致了几何深度学习(GDL)研究的发展,旨在将深度学习技术应用于非欧几里德数据。特别是,考虑到图在现实世界应用中的广泛流行,人们对将机器学习方法应用于图结构数据的兴趣激增。其中,图表示学习(GRL)方法旨在学习图结构数据的低维连续向量表示,也称为嵌入。

广义上讲,GRL可以分为两类学习问题,非监督GRL和监督(或半监督)GRL。第一个系列的目标是学习保持输入图结构的低维欧几里德表示。第二系列也学习低维欧几里德表示,但为一个特定的下游预测任务,如节点或图分类。与非监督设置不同,在非监督设置中输入通常是图结构,监督设置中的输入通常由图上定义的不同信号组成,通常称为节点特征。此外,底层的离散图域可以是固定的,这是直推学习设置(例如,预测一个大型社交网络中的用户属性),但也可以在归纳性学习设置中发生变化(例如,预测分子属性,其中每个分子都是一个图)。最后,请注意,虽然大多数有监督和无监督的方法学习欧几里德向量空间中的表示,最近有兴趣的非欧几里德表示学习,其目的是学习非欧几里德嵌入空间,如双曲空间或球面空间。这项工作的主要动机是使用一个连续的嵌入空间,它类似于它试图嵌入的输入数据的底层离散结构(例如,双曲空间是树的连续版本[99])。

鉴于图表示学习领域的发展速度令人印象深刻,我们认为在一个统一的、可理解的框架中总结和描述所有方法是很重要的。本次综述的目的是为图结构数据的表示学习方法提供一个统一的视图,以便更好地理解在深度学习模型中利用图结构的不同方法。

目前已有大量的图表示学习综述。首先,有一些研究覆盖了浅层网络嵌入和自动编码技术,我们参考[18,24,46,51,122]这些方法的详细概述。其次,Bronstein等人的[15]也给出了非欧几里德数据(如图或流形)的深度学习模型的广泛概述。第三,最近的一些研究[8,116,124,126]涵盖了将深度学习应用到图数据的方法,包括图数据神经网络。这些调查大多集中在图形表示学习的一个特定子领域,而没有在每个子领域之间建立联系。

在这项工作中,我们扩展了Hamilton等人提出的编码-解码器框架,并介绍了一个通用的框架,图编码解码器模型(GRAPHEDM),它允许我们将现有的工作分为四大类: (i)浅嵌入方法,(ii)自动编码方法,(iii) 图正则化方法,和(iv) 图神经网络(GNNs)。此外,我们还介绍了一个图卷积框架(GCF),专门用于描述基于卷积的GNN,该框架在广泛的应用中实现了最先进的性能。这使我们能够分析和比较各种GNN,从在Graph Fourier域中操作的方法到将self-attention作为邻域聚合函数的方法[111]。我们希望这种近期工作的统一形式将帮助读者深入了解图的各种学习方法,从而推断出相似性、差异性,并指出潜在的扩展和限制。尽管如此,我们对前几次综述的贡献有三个方面

  • 我们介绍了一个通用的框架,即GRAPHEDM,来描述一系列广泛的有监督和无监督的方法,这些方法对图形结构数据进行操作,即浅层嵌入方法、图形正则化方法、图形自动编码方法和图形神经网络。

  • 我们的综述是第一次尝试从同一角度统一和查看这些不同的工作线,我们提供了一个通用分类(图3)来理解这些方法之间的差异和相似之处。特别是,这种分类封装了30多个现有的GRL方法。在一个全面的分类中描述这些方法,可以让我们了解这些方法究竟有何不同。

  • 我们为GRL发布了一个开源库,其中包括最先进的GRL方法和重要的图形应用程序,包括节点分类和链接预测。我们的实现可以在https://github.com/google/gcnn-survey-paper上找到。

成为VIP会员查看完整内容
0
106

【导读】嵌入向量( embedding)是一项广受欢迎的技术,有着众多应用。最近来自撰写了《Embeddings in Natural Language Processing Theory and Advances in Vector Representation of Meaning》,共163页pdf,该书首先解释了传统的词向量空间模型和词嵌入(如Word2Vec和GloVe),然后介绍了其他类型的嵌入,如语意、句子和文档以及图形嵌入。我们还概述了上下文化表示(如ELMo、BERT)的最新发展状况,并解释了它们在NLP中的潜力。值得关注。

自2010年代早期以来,嵌入一直是自然语言处理(NLP)的流行词汇之一。将信息编码为低维向量表示,在现代机器学习算法中很容易得到集成,这在NLP的发展中起到了核心作用。嵌入技术最初集中在单词上,但很快注意力开始转向其他形式:从图形结构(如知识库),转向其他类型的文本内容(如句子和文档)。

这本书提供了一个高层次NLP嵌入技术的综述。该书首先解释了传统的词向量空间模型和词嵌入(如Word2Vec和GloVe),然后介绍了其他类型的嵌入,如语意、句子和文档以及图形嵌入。我们还概述了上下文化表示(如ELMo、BERT)的最新发展状况,并解释了它们在NLP中的潜力。

  1. 在第二章,我们提供了一些基本的NLP和机器学习应用于语言问题的背景知识。然后,简要介绍了词汇语义中常用的一些主要的知识资源。

  2. 第3章讨论了单词表示,从传统的基于可数的模型的简要概述开始,接着是最近的基于预测的和基于字符的嵌入。在同一章中,我们还描述了一些专门用于嵌入的技术,例如跨语言单词嵌入,以及单词表示的通用评估方法。

3.第4章讨论了嵌入结构化知识资源的各种技术,特别是语义图。我们将概述最近的主要方法对于图的嵌入节点和边,并总结其应用和评价。

  1. 在第5章中,我们重点讨论了单词的个别含义的表示,即:文字意义。讨论了两类意义表示(无监督的和基于知识的),然后讨论了这类表示的评价技术。

  2. 第六章是关于上下文嵌入的最新分支。在本章中,我们首先解释这种嵌入的必要性,然后描述主要的模型以及它们如何与语言模型相联系。在同一章中,我们还介绍了解释和分析上下文模型有效性的一些工作。

  3. 第7章超越了单词的层次,描述了如何将句子和文档编码成向量表示。我们介绍了一些著名的监督和非监督技术,并讨论了这些表示的应用和评估方法。

  4. 第8章解释了最近讨论的词嵌入的一些伦理问题和固有偏见。本章还介绍了消除词嵌入的一些建议。

  5. 最后,在第九章中,我们提出了结束语和开放式研究的挑战。

成为VIP会员查看完整内容
0
123

题目: word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

摘要:

图形和关系结构的向量表示,无论是手工制作的特征向量还是学习表示,都使我们能够将标准的数据分析和机器学习技术应用于这些结构。在机器学习和知识表示的文献中,对生成这种嵌入的方法进行了广泛的研究。然而,从理论的角度来看,向量嵌入的研究相对较少。在这篇论文中,我们从一个已经在实践中使用的嵌入技术的调查开始,提出了两个我们认为是理解向量嵌入基础的中心的理论方法。我们总结了各种方法之间的联系,并为未来的研究提出了方向。

成为VIP会员查看完整内容
0
30

论文题目:富信息网络表示学习及典型应用问题研究

论文作者:杨成,博士,北京邮电大学计算机学院助理教授,2019年7月毕业于清华大学计算机科学与技术系,从事自然语言处理与社会计算相关方向的研究,博士期间在国内外顶级期刊会议上发表多篇论文,Google Scholar累计获得引用近500次,并担任国内外顶级会议包括ACL、EMNLP、SMP等在内的程序委员会成员和期刊的审稿人。

指导老师:孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

论文摘要:网络是表达对象与对象间关系的常用数据形式,在人们的日常生活与工作学 习中无处不在。除去网络的拓扑结构信息之外,真实的网络数据中一般还包含着 根据节点的属性、行为等产生的丰富信息,统称为富信息网络。随着互联网技术 和移动智能设备的发展,富信息网络的数据规模飞速增长,并带来了丰富的应用 任务和巨大的市场价值。在富信息网络数据的规模及其相关应用的研究需求日益 增长的同时,数据驱动的深度学习技术已经在计算机视觉、自然语言处理等多个 领域取得了巨大的成功。如何让已经在多个领域展示出其有效性的机器学习,特 别是深度学习技术,服务于富信息网络数据及其典型应用已经在近年来成为人工 智能领域的研究热点。 传统的邻接矩阵形式的网络表示具有维度过高和数据稀疏两大缺点,使得研 究者们无法在网络数据上应用机器学习和深度学习技术。因此,研究者们转而将 网络中的节点编码为低维稠密的向量表示,称为网络表示或者网络嵌入。为网络 中的节点学习其向量表示的任务称为网络表示学习。本文针对现有的网络表示学 习工作的缺点和不足,系统性地进行了以下五个工作: 针对缺乏对于已有网络表示学习算法的理论分析的问题,本文提出了网络表 示学习的统一框架和增强算法。本工作将大多数现有的只考虑拓扑结构信息的网 络表示学习方法总结为一个统一的两步框架:邻近度矩阵构造和降维,并进一步 提出了网络嵌入更新(NEU)算法,该算法从理论上隐含地近似了高阶邻近度,可 以应用于已有网络表示学习方法以提高它们的性能。 针对现有网络表示学习方法忽略了网络拓扑结构以外的丰富信息的问题,本 文提出了结合富特征信息的网络表示学习。受前一工作中得到的最先进的网络表 示学习算法实际上等同于一种特殊的矩阵分解的结论的启发,该工作以文本特征 为例,在矩阵分解的框架下将节点的特征信息结合到网络表示学习中。 针对现有网络表示学习方法难以应用于相对复杂的典型应用问题的缺点,本 文以网络表示学习技术作为模型底层,并根据特定的富信息网络场景利用包括循 环神经网络、卷积神经网络在内的深度学习模型进行建模,在推荐系统和传播预 测两个富信息网络典型应用问题中,创新性地提出了基于位置的社交网络的推荐 系统、微观层面的信息传播预测和多层面的信息传播预测的应用模型。

成为VIP会员查看完整内容
0
32
小贴士
相关VIP内容
专知会员服务
18+阅读 · 7月24日
相关论文
Heterogeneous Deep Graph Infomax
Yuxiang Ren,Bo Liu,Chao Huang,Peng Dai,Liefeng Bo,Jiawei Zhang
7+阅读 · 2019年11月19日
Tutorial on NLP-Inspired Network Embedding
Boaz Shmueli
4+阅读 · 2019年10月16日
Improved Deep Embeddings for Inferencing with Multi-Layered Networks
Huan Song,Jayaraman J. Thiagarajan
3+阅读 · 2019年3月1日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
3+阅读 · 2018年12月26日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
5+阅读 · 2018年9月25日
Hierarchical Graph Representation Learning with Differentiable Pooling
Rex Ying,Jiaxuan You,Christopher Morris,Xiang Ren,William L. Hamilton,Jure Leskovec
6+阅读 · 2018年6月26日
Caglar Gulcehre,Misha Denil,Mateusz Malinowski,Ali Razavi,Razvan Pascanu,Karl Moritz Hermann,Peter Battaglia,Victor Bapst,David Raposo,Adam Santoro,Nando de Freitas
6+阅读 · 2018年5月24日
Kurt Riedel
4+阅读 · 2018年3月14日
Ryan A. Rossi,Nesreen K. Ahmed,Eunyee Koh
10+阅读 · 2018年1月28日
Jiezhong Qiu,Yuxiao Dong,Hao Ma,Jian Li,Kuansan Wang,Jie Tang
15+阅读 · 2017年12月12日
Top