随着网络信息的爆炸式增长,推荐系统在缓解信息过载方面发挥了重要作用。由于推荐系统具有重要的应用价值,这一领域的研究一直在不断涌现。近年来,图神经网络(GNN)技术得到了广泛的关注,它能将节点信息和拓扑结构自然地结合起来。由于GNN在图形数据学习方面的优越性能,GNN方法在许多领域得到了广泛的应用。在推荐系统中,主要的挑战是从用户/项目的交互和可用的边信息中学习有效的嵌入用户/项目。由于大多数信息本质上具有图结构,而网络神经网络在表示学习方面具有优势,因此将图神经网络应用于推荐系统的研究十分活跃。本文旨在对基于图神经网络的推荐系统的最新研究成果进行全面的综述。具体地说,我们提供了基于图神经网络的推荐模型的分类,并阐述了与该领域发展相关的新观点。

摘要:

随着电子商务和社交媒体平台的快速发展,推荐系统已经成为许多企业不可缺少的工具[78]。用户依靠推荐系统过滤掉大量的非信息,促进决策。一个高效的推荐系统应该准确地捕捉用户的偏好,并提出用户潜在感兴趣的内容,从而提高用户对平台的满意度和用户留存率。

推荐系统根据用户的兴趣和物品属性来评估他们对物品的偏好。用户兴趣和项目属性都用压缩向量表示。因此,如何通过历史交互以及社会关系、知识图谱[49]等侧面信息来了解用户/项目嵌入是该领域面临的主要挑战。在推荐系统中,大多数信息都具有图结构。例如,用户之间的社会关系和与项目相关的知识图谱,自然就是图形数据。此外,用户与项目之间的交互可以看作是二部图,项目在序列中的转换也可以构建为图。因此,图形学习方法被用来获得用户/项目嵌入。在图学习方法中,图神经网络(graph neural network, GNN)目前受到了极大的追捧。

在过去的几年里,图神经网络在关系提取和蛋白质界面预测等许多应用领域取得了巨大的成功[82]。最近的研究表明,推荐器在以图[41]的形式引入用户/项目和边信息的交互时,性能有了很大的提升,并利用图神经网络技术得到了更好的用户/项目表示。图神经网络通过迭代传播能够捕捉用户-项目关系中的高阶交互。此外,如果社会关系或知识图谱的信息是可用的,则可以有效地将这些边信息集成到网络结构中。

本文旨在全面回顾基于图神经网络的推荐系统的研究进展。对推荐系统感兴趣的研究者和实践者可以大致了解基于图神经网络的推荐领域的最新发展,以及如何利用图神经网络解决推荐任务。本调查的主要贡献总结如下:

  • 新的分类法:我们提出了一个系统的分类模式来组织现有的基于图神经网络的推荐模型。我们可以很容易地进入这个领域,并对不同的模型进行区分。

  • 对每个类别的全面回顾,我们展示了要处理的主要问题,并总结了模型的总体框架。此外,我们还简要介绍了代表性模型,并说明它们是如何解决这些问题的。

  • 我们讨论了当前方法的局限性,并在效率、多图集成、可扩展性和序列图构造方面提出了四个潜在的未来方向。

成为VIP会员查看完整内容
0
77

相关内容

图神经网络 (GNN) 是一种连接模型,它通过图的节点之间的消息传递来捕捉图的依赖关系。与标准神经网络不同的是,图神经网络保留了一种状态,可以表示来自其邻域的具有任意深度的信息。近年来,图神经网络(GNN)在社交网络、知识图、推荐系统、问答系统甚至生命科学等各个领域得到了越来越广泛的应用。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

摘要:随着计算机行业和互联网时代的不断发展与进步,图神经网络已经成为人工智能和大数据重要研究领域。图神经网络是对相邻节点间信息的传播和聚合的重要技术,可以有效地将深度学习的理念应用于非欧几里德空间的数据上。简述图计算、图数据库、知识图谱、图神经网络等图技术领域的相关研究历史,分类介绍不同类型的图结构。分析对比不同的图神经网络技术,重点从频域和空间与的信息聚合方式上分类比较不同的图卷积网络算法。阐述图生成和图对抗网络、图强化学习、图迁移学习、神经任务图和图零样本学习等不同的图网络与深度学习方法相结合的技术方法,并列举不同的图神经网络技术在文本、图像、知识图谱、视频任务等领域的具体应用。最后,对图神经网络未来的发展与研究方向加以展望。

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJDAY&filename=JSJC20201123000&v=fpDLQvPDFGeYvQeSgmnh5h1YpkO6G1W6SQqt4w%25mmd2B%25mmd2BnZtjD3h80wKsQ5NhpJeXgtGI

概述

近年来随着计算机行业的快速发展和数据量的井喷式增长,深度学习方法被提出并得到了广泛的 应用。深度学习通过神经网络端到端的解决方案, 在图像处理、语音识别、语义理解[1]等领域取得了 巨大的成功,深度学习的应用往往都是在高维特征 空间上特征规则分布的欧几里德数据。作为一种关 系型数据结构,图(Graph)在深度学习中的应用研究近年来受到越来越多的关注,本文将图的演进历程分为数学起源、计算应用、神经网络延伸三个阶段。

图的概念起源于 18 世纪著名的柯尼斯堡七桥问 题,到了 20 世纪中期,拟阵理论、超图理论、极图 理论等研究蓬勃发展,使得图论(Graph Theory)[2] 在电子计算诞生前,就已经成为了重要的数学研究领域。

随着计算机的出现和机器计算时代的到来和发 展,图作为一种能够有效且抽象地表达信息和数据 中的实体以及实体之间关系的重要数据结构被广泛应用,图数据库有效解决了传统的关系型数据结构 面对大量复杂的数据所暴露出的建模缺陷多、计算速度慢等问题,图数据库也成为了非常热门的研究 领域。图结构(Graph-structured Data)[3]可以将结构化数据点通过边的形式,依照数据间的关系将不同类型和结构的数据节点连接起来,因而被广泛地应用在数据的存储、检索以及计算应用中。基于图结构数据,知识图谱[4-7]可以通过点和边的语义关系, 来实现精确地描述现实世界中实体之间的关联关系, 作为人工智能非常重要的研究领域,知识图谱的研究方向包括知识抽取、知识推理、知识图谱可视化等。图计算(Graph Computing)具有数据规模量大、 局部性低、计算性能高等特性,图计算算法[8-9]主要 可以分为路径搜索算法、中心性算法、社群发现算法等三类,实现了在关系复杂型的大规模数据上高 时效性和准确度的表现,在社交网络、团体反欺诈 和用户推荐等领域有着重要的应用。

与已经非常成熟图计算不同,图神经网络 (Graph Neural Network)的研究主要是集中在相邻节点信息的传播与聚合上,从图神经网络的概念提 出,到受深度学习中卷积神经网络的启发,2013 年 提出的基于图论的图卷积神经网络 [10-11]研究方向吸 引了大量学者关注。2018 年 DeepMind 提出图网络 (Graph Network)[12]的概念,希望能够将深度学习 端到端的学习方式与图结构关系归纳推理的理论结 合解决深度学习无法处理关系推理的问题。针对图 神经网络存在的问题,不同的学者们也给出了不同 的方案,随着对图神经网络这一新兴领域更加深入 的研究与探索,人工智能领域的版图将得到更大扩展。

文献[12]在关系归纳偏置和深度学习的研究基础 上,提出了面向关系推理的图网络概念并进行了综 述,但未对不同图网络技术进行分类和对比。文献 [13]从半监督、无监督方法的角度对图结构上的深度 学习进行了综述,但缺少相近的分类和应用的讨论。文献[14]主要从传播规则、网络结构等角度分析了图神经网络的不同模型以及应用。文献[15]则是详细对 比了时域和空间的不同图卷神经网络方法结构,但没有对图神经网络之于深度学习领域的探讨,如图强化学习、图迁移学习等。本文针对图神经网络, 分析对比了六种图神经网络方法的优劣,首次对处 理异构图数据的图神经网络技术进行了讨论和研究, 综述了五类图神经网络的研究领域,并对未来的发展方向进行了展望。

成为VIP会员查看完整内容
0
64

图神经网络(GNNs)最近在人工智能领域变得越来越受欢迎,这是因为它们具有提取相对非结构化数据类型作为输入数据的独特能力。尽管GNN体系结构的一些元素在操作上与传统神经网络(以及神经网络变体)的概念相似,但其他元素则不同于传统的深度学习技术。本教程通过整理和呈现最常见类型的GNNs的动机、概念、数学和应用的详细信息,向一般深度学习爱好者展示了GNNs的强大功能和新颖之处。重要的是,我们以介绍性的速度简要地介绍了本教程,并提供了理解和使用GNNs的实用和可访问的指南。

摘要:

当代人工智能(AI),或者更具体地说,深度学习(DL)近年来被称为神经网络(NN)的学习架构所主导。NN变体被设计用于提高某些问题领域的性能;卷积神经网络(CNN)在基于图像的任务环境中表现突出,而递归神经网络(RNN)在自然语言处理和时间序列分析空间中表现突出。神经网络也被用作复合DL框架的组件——它们在生成对抗网络(GANs)中被用作可训练的生成器和判别器,在transformers [46]中被用作编码器和解码器。虽然在计算机视觉中作为输入的图像和在自然语言处理中作为输入的句子看起来是不相关的,但是它们都可以用一个单一的、通用的数据结构来表示:图(见图1)。

形式上,图是一组不同的顶点(表示项目或实体),这些顶点通过边(表示关系)选择性地连接在一起。被设计来处理这些图的学习架构是有名称的图神经网络(GNN)。输入图之间的顶点和边的数量可以改变。通过这种方式,GNNs可以处理非结构化的、非欧几里得数据[4],这一特性使得它们在图形数据丰富的特定问题域中具有价值。相反,基于NN的算法通常需要对具有严格定义维数的结构化输入进行操作。例如,构建一个用于在MNIST数据集上进行分类的CNN,其输入层必须为28×28个神经元,后续输入给它的所有图像大小必须为28×28像素,才能符合这个严格的维数要求[27]。

图作为数据编码方法的表达性,以及GNNs相对于非结构化输入的灵活性,推动了它们的研究和开发。它们代表了一种探索相对通用的深度学习方法的新方法,并且它们促进了深度学习方法对数据集的应用,直到最近,这些数据集还不能使用传统的神经网络或其他此类算法。

本篇内容结构:

  • (1) 简明易懂的GNNs入门教程。
  • (2) 具体GNN架构(RGNNs、CGNNs、GAEs)的操作说明,逐步构建对GNN框架的整体理解(分别参见第3、4、5节)。
  • (3) GNN如何应用于现实世界问题领域的完整例子(见附录B.1、B.2和B.3)。
  • (4) 具体的进一步阅读建议和先进的文献(提供在第3、4、5节的最后)。

https://deepai.org/publication/a-practical-guide-to-graph-neural-networks

成为VIP会员查看完整内容
0
97

近年来,图神经网络(GNNs)由于具有建模和从图结构数据中学习的能力,在机器学习领域得到了迅猛发展。这种能力在数据具有内在关联的各种领域具有很强的影响,而传统的神经网络在这些领域的表现并不好。事实上,正如最近的评论可以证明的那样,GNN领域的研究已经迅速增长,并导致了各种GNN算法变体的发展,以及在化学、神经学、电子或通信网络等领域的突破性应用的探索。然而,在目前的研究阶段,GNN的有效处理仍然是一个开放的挑战。除了它们的新颖性之外,由于它们依赖于输入图,它们的密集和稀疏操作的组合,或者在某些应用中需要伸缩到巨大的图,GNN很难计算。在此背景下,本文旨在做出两大贡献。一方面,从计算的角度对GNNs领域进行了综述。这包括一个关于GNN基本原理的简短教程,在过去十年中该领域发展的概述,以及在不同GNN算法变体的多个阶段中执行的操作的总结。另一方面,对现有的软硬件加速方案进行了深入分析,总结出一种软硬件结合、图感知、以通信为中心的GNN加速方案。

成为VIP会员查看完整内容
0
69

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在连续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。****

成为VIP会员查看完整内容
0
28

流处理作为一个活跃的研究领域已经有20多年了,但是由于最近研究社区和众多世界范围的开源社区的成功努力,它现在正见证着它的黄金时期。本综述提供了流处理系统的基本方面的全面概述,以及流处理系统在无序数据管理、状态管理、容错、高可用性、负载管理、弹性和重新配置等功能领域的发展。我们回顾了过去值得注意的研究成果,概述了早期(00- 10)和现代(11- 18)流媒体系统之间的异同,并讨论了最近的趋势和开放问题。

成为VIP会员查看完整内容
0
16

随着web技术的发展,多模态或多视图数据已经成为大数据的主要流,每个模态/视图编码数据对象的单个属性。不同的模态往往是相辅相成的。这就引起了人们对融合多模态特征空间来综合表征数据对象的研究。大多数现有的先进技术集中于如何融合来自多模态空间的能量或信息,以提供比单一模态的同行更优越的性能。最近,深度神经网络展示了一种强大的架构,可以很好地捕捉高维多媒体数据的非线性分布,对多模态数据自然也是如此。大量的实证研究证明了深多模态方法的优势,从本质上深化了多模态深特征空间的融合。在这篇文章中,我们提供了从浅到深空间的多模态数据分析领域的现有状态的实质性概述。在整个调查过程中,我们进一步指出,该领域的关键要素是多模式空间的协作、对抗性竞争和融合。最后,我们就这一领域未来的一些方向分享我们的观点。

成为VIP会员查看完整内容
0
90

【导读】近来,知识图谱用于推荐系统是关注的焦点,能够提升推荐系统的准确性与可解释性。如何将知识图谱融入到推荐系统呢? 最近中科院计算所百度微软等学者最新综述论文《A Survey on Knowledge Graph-Based Recommender Systems》,阐述对基于知识图谱的推荐系统进行了系统的研究。

地址:https://www.zhuanzhi.ai/paper/90d0d696560bc88ea93f629b478a2128

为了解决各种在线应用中的信息爆炸问题,提高用户体验,推荐系统被提出来进行用户偏好建模。尽管人们已经做出了许多努力来实现更加个性化的推荐,但是推荐系统仍然面临着一些挑战,比如数据稀疏性和冷启动。近年来,以知识图谱作为边信息生成推荐引起了人们的极大兴趣。这种方法不仅可以缓解上述问题,提供更准确的推荐,而且可以对推荐的项目进行解释。本文对基于知识图谱的推荐系统进行了系统的研究。我们收集了这一领域最近发表的论文,并从两个角度进行了总结。一方面,我们通过研究论文如何利用知识图谱进行准确和可解释的推荐来研究所提出的算法。另一方面,我们介绍了这些工作中使用的数据集。最后,我们提出了几个可能的研究方向。

概述

随着互联网的快速发展,数据量呈指数级增长。由于信息量过大,用户在众多的选择中很难找到自己感兴趣的。为了提高用户体验,推荐系统已被应用于音乐推荐[1]、电影推荐[2]、网上购物[3]等场景。

推荐算法是推荐系统的核心要素,主要分为基于协同过滤(CF)的推荐系统、基于内容的推荐系统和混合推荐系统[4]。基于CF的推荐基于用户或交互数据项的相似度来建模用户偏好,而基于内容的推荐利用了物品项的内容特征。基于CF的推荐系统得到了广泛的应用,因为它可以有效地捕获用户的偏好,并且可以很容易地在多个场景中实现,而不需要在基于内容的推荐系统[5]、[6]中提取特征。然而,基于CF的推荐存在数据稀疏性和冷启动问题[6]。为了解决这些问题,提出了混合推荐系统来统一交互级相似度和内容级相似度。在这个过程中,我们探索了多种类型的边信息,如项目属性[7]、[8]、项目评论[9]、[10],以及用户的社交网络[11]、[12]。

近年来,将知识图谱(KG)作为边信息引入推荐系统引起了研究者的关注。KG是一个异构图,其中节点作为实体,边表示实体之间的关系。可以将项目及其属性映射到KG中,以了解项目[2]之间的相互关系。此外,还可以将用户和用户端信息集成到KG中,从而更准确地捕捉用户与物品之间的关系以及用户偏好。图1是一个基于KG的推荐示例,其中电影“Avatar”和“Blood Diamond”被推荐给Bob。此KG包含用户、电影、演员、导演和类型作为实体,而交互、归属、表演、导演和友谊是实体之间的关系。利用KG,电影与用户之间存在不同的潜关系,有助于提高推荐的精度。基于知识的推荐系统的另一个优点是推荐结果[14]的可解释性。在同一个示例中,根据user-item图中的关系序列可以知道向Bob推荐这两部电影的原因。例如,推荐《阿凡达》的一个原因是,《阿凡达》与鲍勃之前看过的《星际穿越》属于同一类型。最近提出了多种KGs,如Freebase[15]、DBpedia[16]、YAGO[17]、谷歌的知识图谱[18],方便了KGs的推荐构建。

图1 一个基于kg的推荐的例子

本次综述的目的是提供一个全面的文献综述利用KGs作为侧信息的推荐系统。在我们的研究过程中,我们发现现有的基于KG的推荐系统以三种方式应用KGs: 基于嵌入的方法、基于路径的方法和统一的方法。我们详细说明了这些方法的异同。除了更准确的推荐之外,基于KG的推荐的另一个好处是可解释性。我们讨论了不同的作品如何使用KG来进行可解释的推荐。此外,根据我们的综述,我们发现KGs在多个场景中充当了辅助信息,包括电影、书籍、新闻、产品、兴趣点(POIs)、音乐和社交平台的推荐。我们收集最近的作品,根据应用程序对它们进行分类,并收集在这些作品中评估的数据集。

本次综述的组织如下: 在第二部分,我们介绍了KGs和推荐系统的基础;在第3节中,我们介绍了本文中使用的符号和概念;在第4节和第5节中,我们分别从方法和评价数据集的角度对基于知识的推荐系统进行了综述;第六部分提出了该领域的一些潜在研究方向;最后,我们在第7节总结了这次调查。

术语概念

图2 常用知识图谱集合

图3 符号

知识图谱推荐系统方法

Embedding-based方法

基于嵌入的方法通常直接使用来自KG的信息来丰富项目或用户的表示。为了利用KG信息,需要使用知识图嵌入(KGE)算法将KG编码为低秩嵌入。KGE算法可分为两类[98]:翻译距离模型,如TransE[99]、TransH[100]、TransR[101]、TransD[102]等;语义匹配模型,如DistMult[103]等。

根据KG中是否包含用户,可以将基于嵌入的方法分为两个类。在第一种方法中,KGs由项目及其相关属性构成,这些属性是从数据集或外部知识库中提取的。我们将这样的图命名为项目图。注意,用户不包括在这样的项目图中。遵循这一策略的论文利用知识图嵌入(KGE)算法对图进行编码,以更全面地表示项目,然后将项目侧信息集成到推荐框架中。其大意可以如下所示。

另一种embedding-based方法直接建立user-item图,用户,项目,以及相关属性函数作为节点。在用户-项目图中,属性级关系(品牌、类别等)和用户级关系(共同购买、共同查看等)都是边。

Path-based Methods

基于路径的方法构建一个用户-项目图,并利用图中实体的连接模式进行推荐。基于路径的方法在2013年就已经开发出来了,传统的论文将这种方法称为HIN中的推荐方法。通常,这些模型利用用户和/或项的连接性相似性来增强推荐。

统一方法

基于嵌入的方法利用KG中用户/项的语义表示进行推荐,而基于路径的方法使用语义连接信息,并且两种方法都只利用图中信息的一个方面。为了更好地利用KG中的信息,提出了将实体和关系的语义表示和连通性信息结合起来的统一方法。统一的方法是基于嵌入传播的思想。这些方法以KG中的连接结构为指导,对实体表示进行细化。

总结:

基于嵌入的方法使用KGE方法对KG(项目图或用户-项目图)进行预处理,以获得实体和关系的嵌入,并将其进一步集成到推荐框架中。然而,这种方法忽略了图中信息的连通性模式,很少有文献能够给出有原因的推荐结果。基于路径的方法利用用户-项图,通过预先定义元路径或自动挖掘连接模式来发现项的路径级相似性。基于路径的方法还可以为用户提供对结果的解释。将基于嵌入的方法与基于路径的方法相结合,充分利用双方的信息是当前的研究趋势。此外,统一的方法还具有解释推荐过程的能力。

图4 收集论文表。在表格中,Emb代表基于嵌入的方法,Uni代表统一方法,Att’代表注意力机制,’RL’代表强化学习,’AE’代表自动编码器,’MF’代表矩阵分解。

代表数据集

图5 不同应用场景和相应论文的数据集集合

未来方向

在以上几节中,我们从更准确的推荐和可解释性方面展示了基于知识的推荐系统的优势。虽然已经提出了许多利用KG作为侧信息进行推荐的新模型,但仍然存在一些改进的机会。在这一部分中,我们概述并讨论了一些未来的研究方向。

  • 动态推荐。虽然基于KG的推荐系统在GNN或GCN架构下取得了良好的性能,但是训练过程是耗时的。因此,这些模型可以看作是静态的偏好推荐。然而,在某些情况下,如网上购物、新闻推荐、Twitter和论坛,用户的兴趣会很快受到社会事件或朋友的影响。在这种情况下,使用静态偏好建模的推荐可能不足以理解实时兴趣。为了捕获动态偏好,利用动态图网络可以是一个解决方案。最近,Song等[127]设计了一个动态图-注意力网络,通过结合来自朋友的长期和短期兴趣来捕捉用户快速变化的兴趣。按照这种方法,很自然地要集成其他类型的侧信息,并构建一个KG来进行动态推荐。

  • 多任务学习。基于kg的推荐系统可以看作是图中链接预测。因此,考虑到KG的性质,有可能提高基于图的推荐的性能。例如,KG中可能存在缺失的事实,从而导致关系或实体的缺失。然而,用户的偏好可能会被忽略,因为这些事实是缺失的,这可能会恶化推荐结果。[70]、[95]已经证明了联合训练KG完成模块和推荐模块以获得更好的推荐是有效的。其他的工作利用多任务学习,将推荐模块与KGE task[45]和item relation regulation task联合训练[73]。利用从其他kg相关任务(例如实体分类和解析)迁移知识来获得更好的推荐性能,这是很有趣的。

  • 跨域推荐。最近,关于跨域推荐的研究已经出现。其动机是跨域的交互数据不相等。例如,在Amazon平台上,图书评级比其他域更密集。使用迁移学习技术,可以共享来自具有相对丰富数据的源域的交互数据,以便在目标域内进行更好的推荐。Zhang等[128]提出了一种基于矩阵的跨域推荐方法。后来,Zhao等人[129]引入了PPGN,将来自不同领域的用户和产品放在一个图中,并利用user item交互图进行跨领域推荐。虽然PPGN的性能显著优于SOTA,但是user item图只包含交互关系,并不考虑用户和项目之间的其他关系。通过将不同类型的用户和项目端信息合并到用户-项目交互图中,以获得更好的跨域推荐性能。

  • 知识增强语言表示。为了提高各种自然语言处理任务的性能,有将外部知识集成到语言表示模型中的趋势。知识表示和文本表示可以相互细化。例如,Chen等人[130]提出了短文本分类的STCKA,利用来自KGs(如YAGO)的先验知识,丰富了短文本的语义表征。Zhang等人[131]提出了ERNIE,该方法融合了Wikidata的知识,增强了语言的表示能力,该方法已被证明在关系分类任务中是有效的。虽然DKN模型[48]既利用了文本嵌入,也利用了新闻中的实体嵌入,但这两种嵌入方式只是简单地串联起来,得到新闻的最终表现形式,而没有考虑两个向量之间的信息融合。因此,将知识增强的文本表示策略应用于新闻推荐任务和其他基于文本的推荐任务中,能够更好地表示学习,从而获得更准确的推荐结果,是很有前景的。

  • 知识图谱嵌入方法。基于不同约束条件的KGE方法有两种:翻译距离模型和语义匹配模型。在本次综述中,这两种类型的KGE方法被用于三种基于KGE的推荐系统和推荐任务中。但是,还没有全面的工作建议在什么情况下,包括数据源、推荐场景和模型架构,应该采用特定的KGE方法。因此,另一个研究方向是比较不同KGE方法在不同条件下的优势。

  • 用户端信息。目前,大多数基于KG的推荐系统都是通过合并项目侧信息来构建图的,而很少有模型考虑用户侧信息。然而,用户侧信息,如用户网络和用户的人口统计信息,也可以很自然地集成到当前基于KGbased的推荐系统框架中。最近,Fan等人[132]使用GNN分别表示用户-用户社交网络和用户-项目交互图,该方法在用户社交信息方面优于传统的基于cf的推荐系统。在我们最近的调查[96]中,一篇论文将用户关系整合到图表中,并展示了这种策略的有效性。因此,在KG中考虑用户侧信息可能是另一个研究方向。

成为VIP会员查看完整内容
0
82

在本文中,我们对知识图谱进行了全面的介绍,在需要开发多样化、动态、大规模数据收集的场景中,知识图谱最近引起了业界和学术界的极大关注。在大致介绍之后,我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论模式、标识和上下文在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们如何使用上述技术。最后,我们总结了未来高层次的知识图谱研究方向。

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440],但它的现代形式起源于2012年发布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明,学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题,其中包括书籍(如[400]),以及概述定义(如[136])的论文,新技术(如[298,399,521]),以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据,通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下,与关系模型或NoSQL替代方案相比,使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象,其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义,允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展,特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同,专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等),而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等,以获得对所描述领域的洞察。各种表示形式也被开发出来,支持直接在图上应用机器学习技术[519,527]。

总之,构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是,我们还没有看到一个通用的统一总结,它描述了如何使用知识图谱,使用了哪些技术,以及它们如何与现有的数据管理主题相关。

本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此,我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136],其中出现了一些(有时相互冲突的)定义,从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里,我们采用了一个包容性的定义,其中我们将知识图谱视为一个数据图,目的是积累和传递真实世界的知识,其节点表示感兴趣的实体,其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型,它可以是一个有向边标记的图,一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累,也可以从知识图谱本身中提取。知识可以由简单的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句,那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如,“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源,因此,在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布,使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459],推荐[83,205,214,365],个人代理[392],广告[214],商业分析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

结构。本文件其余部分的结构如下:

  • 第2节概述了图形数据模型和可用于查询它们的语言。
  • 第3节描述了知识图谱中模式、标识和上下文的表示形式。
  • 第四节介绍了演绎式的形式主义,通过这种形式主义,知识可以被描述和推导出来。
  • 第5节描述了可以提取额外知识的归纳技术。
  • 第6节讨论了如何从外部资源中创建和丰富知识图谱。
  • 第7节列举了可用于评估知识图谱的质量维度。
  • 第8节讨论知识图谱细化的各种技术。
  • 第9节讨论发布知识图谱的原则和协议。
  • 第10节介绍了一些著名的知识图谱及其应用。
  • 第11节总结了知识图谱的研究概况和未来的研究方向。
  • 附录A提供了知识图谱的历史背景和以前的定义。
  • 附录B列举了将从论文正文中引用的正式定义。
成为VIP会员查看完整内容
0
302

【导读】近年来,随着网络数据量的不断增加,挖掘图形数据已成为计算机科学领域的热门研究课题,在学术界和工业界都得到了广泛的研究。但是,大量的网络数据为有效分析带来了巨大的挑战。因此激发了图表示的出现,该图表示将图映射到低维向量空间中,同时保持原始图结构并支持图推理。图的有效表示的研究具有深远的理论意义和重要的现实意义,本教程将介绍图表示/网络嵌入的一些基本思想以及一些代表性模型。

关于图或网络的文献有两个名称:图表示和网络嵌入。我们注意到图和网络都指的是同一种结构,尽管它们每个都有自己的术语,例如,图和网络的顶点和边。挖掘图/网络的核心依赖于正确表示的图/网络,这使得图/网络上的表示学习成为学术界和工业界的基本研究问题。传统表示法直接基于拓扑图来表示图,通常会导致许多问题,包括稀疏性,高计算复杂性等,从而激发了基于机器学习的方法的出现,这种方法探索了除矢量空间中的拓扑结构外还能够捕获额外信息的潜在表示。因此,对于图来说,“良好”的潜在表示可以更加精确的表示图形。但是,学习网络表示面临以下挑战:高度非线性,结构保持,属性保持,稀疏性。

深度学习在处理非线性方面的成功为我们提供了研究新方向,我们可以利用深度学习来提高图形表示学习的性能,作者在教程中讨论了将深度学习技术与图表示学习相结合的一些最新进展,主要分为两类方法:面向结构的深层方法和面向属性的深层方法。

对于面向结构的方法:

  • 结构性深层网络嵌入(SDNE),专注于保持高阶邻近度。

  • 深度递归网络嵌入(DRNE),其重点是维护全局结构。

  • 深度超网络嵌入(DHNE),其重点是保留超结构。

对于面向属性的方法:

  • 专注于不确定性属性的深度变异网络嵌入(DVNE)。

  • 深度转换的基于高阶Laplacian高斯过程(DepthLGP)的网络嵌入,重点是动态属性。

本教程的第二部分就以上5种方法,通过对各个方法的模型介绍、算法介绍、对比分析等不同方面进行详细介绍。

1、Structural Deep Network Embedding

network embedding,是为网络中的节点学习出一个低维表示的方法。目的在于在低维中保持高度非线性的网络结构特征,但现有方法多采用浅层网络不足以挖掘高度非线性,或同时保留局部和全局结构特征。本文提出一种结构化深度网络嵌入方法,叫SDNE该方法用半监督的深度模型来捕捉高度非线性结构,通过结合一阶相似性(监督)和二阶相似性(非监督)来保留局部和全局特征。

2、 Deep recursive network embedding with regular equivalence

网络嵌入旨在保留嵌入空间中的顶点相似性。现有方法通常通过节点之间的连接或公共邻域来定义相似性,即结构等效性。但是,位于网络不同部分的顶点可能具有相似的角色或位置,即规则的等价关系,在网络嵌入的文献中基本上忽略了这一点。以递归的方式定义规则对等,即两个规则对等的顶点具有也规则对等的网络邻居。因此,文章中提出了一种名为深度递归网络嵌入(DRNE)的新方法来学习具有规则等价关系的网络嵌入。更具体地说,我们提出了一种层归一化LSTM,以递归的方式通过聚合邻居的表示方法来表示每个节点。

3、Structural Deep Embedding for Hyper-Networks

是在hyperedge(超边是不可分解的)的基础上保留object的一阶和二阶相似性,学习异质网络表示。于与HEBE的区别在于,本文考虑了网络high-oeder网络结构和高度稀疏性。

传统的基于clique expansion 和star expansion的方法,显式或者隐式地分解网络。也就说,分解后hyper edge节点地子集,依然可以构成一个新的超边。对于同质网络这个假设是合理地,因为同质网络地超边,大多数情况下都是根据潜在地相似性(共同地标签等)构建的。

4、** Deep variational network embedding in wasserstein space**

大多数现有的嵌入方法将节点作为点向量嵌入到低维连续空间中。这样,边缘的形成是确定性的,并且仅由节点的位置确定。但是,现实世界网络的形成和发展充满不确定性,这使得这些方法不是最优的。为了解决该问题,在本文中提出了一种新颖的在Wasserstein空间中嵌入深度变分网络(DVNE)。所提出的方法学习在Wasserstein空间中的高斯分布作为每个节点的潜在表示,它可以同时保留网络结构并为节点的不确定性建模。具体来说,我们使用2-Wasserstein距离作为分布之间的相似性度量,它可以用线性计算成本很好地保留网络中的传递性。此外,我们的方法通过深度变分模型隐含了均值和方差的数学相关性,可以通过均值矢量很好地捕获节点的位置,而由方差可以很好地捕获节点的不确定性。此外,本文方法通过保留网络中的一阶和二阶邻近性来捕获局部和全局网络结构。

5、Learning embeddings of out-of-sample nodes in dynamic networks

迄今为止的网络嵌入算法主要是为静态网络设计的,在学习之前,所有节点都是已知的。如何为样本外节点(即学习后到达的节点)推断嵌入仍然是一个悬而未决的问题。该问题对现有方法提出了很大的挑战,因为推断的嵌入应保留复杂的网络属性,例如高阶邻近度,与样本内节点嵌入具有相似的特征(即具有同质空间),并且计算成本较低。为了克服这些挑战,本文提出了一种深度转换的高阶拉普拉斯高斯过程(DepthLGP)方法来推断样本外节点的嵌入。DepthLGP结合了非参数概率建模和深度学习的优势。特别是,本文设计了一个高阶Laplacian高斯过程(hLGP)来对网络属性进行编码,从而可以进行快速和可扩展的推理。为了进一步确保同质性,使用深度神经网络来学习从hLGP的潜在状态到节点嵌入的非线性转换。DepthLGP是通用的,因为它适用于任何网络嵌入算法学习到的嵌入。

成为VIP会员查看完整内容
0
162
小贴士
相关论文
Yingqian Wang,Jungang Yang,Longguang Wang,Xinyi Ying,Tianhao Wu,Wei An,Yulan Guo
0+阅读 · 11月25日
Yuewen Zhu,Chunran Zheng,Chongjian Yuan,Xu Huang,Xiaoping Hong
0+阅读 · 11月23日
Taiane Schaedler Prass,Guilherme Pumi
0+阅读 · 11月20日
Menghan Wang,Yujie Lin,Guli Lin,Keping Yang,Xiao-ming Wu
6+阅读 · 6月1日
Kai-Lang Yao,Wu-Jun Li
3+阅读 · 2月12日
Shaoxiong Ji,Shirui Pan,Erik Cambria,Pekka Marttinen,Philip S. Yu
58+阅读 · 2月2日
Recommendation Systems for Tourism Based on Social Networks: A Survey
Alan Menk,Laura Sebastia,Rebeca Ferreira
3+阅读 · 2019年3月28日
Chih-Ming Chen,Chuan-Ju Wang,Ming-Feng Tsai,Yi-Hsuan Yang
4+阅读 · 2019年2月19日
Xiangnan He,Zhankui He,Jingkuan Song,Zhenguang Liu,Yu-Gang Jiang,Tat-Seng Chua
3+阅读 · 2018年9月19日
Elias Pimenidis,Nikolaos Polatidis,Haralambos Mouratidis
7+阅读 · 2018年5月6日
Top