在本文中,我们对知识图谱进行了全面的介绍,在需要开发多样化、动态、大规模数据收集的场景中,知识图谱最近引起了业界和学术界的极大关注。在大致介绍之后,我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论模式、标识和上下文在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们如何使用上述技术。最后,我们总结了未来高层次的知识图谱研究方向。

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440],但它的现代形式起源于2012年发布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明,学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题,其中包括书籍(如[400]),以及概述定义(如[136])的论文,新技术(如[298,399,521]),以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据,通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下,与关系模型或NoSQL替代方案相比,使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象,其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义,允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展,特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同,专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等),而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等,以获得对所描述领域的洞察。各种表示形式也被开发出来,支持直接在图上应用机器学习技术[519,527]。

总之,构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是,我们还没有看到一个通用的统一总结,它描述了如何使用知识图谱,使用了哪些技术,以及它们如何与现有的数据管理主题相关。

本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此,我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136],其中出现了一些(有时相互冲突的)定义,从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里,我们采用了一个包容性的定义,其中我们将知识图谱视为一个数据图,目的是积累和传递真实世界的知识,其节点表示感兴趣的实体,其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型,它可以是一个有向边标记的图,一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累,也可以从知识图谱本身中提取。知识可以由简单的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句,那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如,“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源,因此,在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布,使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459],推荐[83,205,214,365],个人代理[392],广告[214],商业分析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

结构。本文件其余部分的结构如下:

  • 第2节概述了图形数据模型和可用于查询它们的语言。
  • 第3节描述了知识图谱中模式、标识和上下文的表示形式。
  • 第四节介绍了演绎式的形式主义,通过这种形式主义,知识可以被描述和推导出来。
  • 第5节描述了可以提取额外知识的归纳技术。
  • 第6节讨论了如何从外部资源中创建和丰富知识图谱。
  • 第7节列举了可用于评估知识图谱的质量维度。
  • 第8节讨论知识图谱细化的各种技术。
  • 第9节讨论发布知识图谱的原则和协议。
  • 第10节介绍了一些著名的知识图谱及其应用。
  • 第11节总结了知识图谱的研究概况和未来的研究方向。
  • 附录A提供了知识图谱的历史背景和以前的定义。
  • 附录B列举了将从论文正文中引用的正式定义。
成为VIP会员查看完整内容
0
265

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

现实网络由多种相互作用、不断进化的实体组成,而现有的研究大多将其简单地描述为特定的静态网络,而没有考虑动态网络的演化趋势。近年来,动态网络的特性跟踪研究取得了重大进展,利用网络中实体和链接的变化来设计网络嵌入技术。与被广泛提出的静态网络嵌入方法相比,动态网络嵌入努力将节点编码为低维密集表示,有效地保持了网络结构和时间动态,有利于处理各种下游机器学习任务。本文对动态网络嵌入问题进行了系统的研究,重点介绍了动态网络嵌入的基本概念,首次对现有的动态网络嵌入技术进行了分类,包括基于矩阵分解的、基于跃格的、基于自动编码器的、基于神经网络的等嵌入方法。此外,我们仔细总结了常用的数据集和各种各样的后续任务,动态网络嵌入可以受益。在此基础上,提出了动态嵌入模型、大规模动态网络、异构动态网络、动态属性网络、面向任务的动态网络嵌入以及更多的嵌入空间等现有算法面临的挑战,并提出了未来可能的研究方向。

成为VIP会员查看完整内容
0
31

【导读】异构网络表示学习Heterogeneous Network Representation Learning是当前自数据挖掘以及其他应用的研究热点,在众多任务中具有重要的应用。近日,UIUC韩家炜等学者发布了异构网络表示学习的综述大全,共15页pdf115篇参考文献,从背景知识到当前代表性HNE模型和应用研究挑战等,是最新可参考绝好的异构网络表示学习模型的文献。

由于现实世界中的对象及其交互通常是多模态和多类型的,所以异构网络被广泛地用作传统同构网络(图)的一个更强大、更现实和更通用的超类。与此同时,表示学习(representation learning,又称嵌入)最近得到了深入的研究,并被证明对各种网络挖掘和分析任务都是有效的。由于已有大量的异构网络嵌入(HNE)算法,但没有专门的调研综述,作为这项工作的第一个贡献,我们率先提供了一个统一的范式,对各种现有的HNE算法的优点进行系统的分类和分析。此外,现有的HNE算法虽然大多被认为是通用的,但通常是在不同的数据集上进行评估。由于HNE在应用上的天然优势,这种间接的比较在很大程度上阻碍了任务性能的改善,特别是考虑到从真实世界的应用数据构建异构网络的各种可能的方法。因此,作为第二项贡献,我们创建了四个基准数据集,这些数据集具有不同来源的尺度、结构、属性/标签可用性等不同属性,以全面评估HNE算法。作为第三个贡献,我们对十种流行的HNE算法的实现进行了细致的重构和修改,并创建了友好的接口,并在多个任务和实验设置上对它们进行了全方位的比较。

1.概述

网络和图形构成了一种规范的、普遍存在的交互对象建模范式,已经引起了各个科学领域的重要研究关注[59、30、24、3、89、87]。然而,现实世界的对象和交互通常是多模态和多类型的(例如,作者、论文、场所和出版物网络中的术语[69,65];基于位置的社交网络中的用户、地点、类别和gps坐标[101,91,94];以及生物医学网络中的基因、蛋白质、疾病和物种[38,14])。为了捕获和利用这种节点和链路的异构性,异构网络被提出并广泛应用于许多真实的网络挖掘场景中,如基于元路径的相似度搜索[70、64、92]、节点分类和聚类[18、20、11]、知识库补全[68、48、103]和推荐[23、106、31]。

与此同时,目前对图数据的研究主要集中在表示学习(图数据嵌入)方面,特别是在神经网络算法的先行者们展示了前所未有的有效而高效的图数据挖掘的经验证据之后[25,4,13]。他们的目标是将图数据(如节点[49、72、26、77、37、28、9、75]、链接[107、1、50、96]和子图[47、93、97、45])转换为嵌入空间中的低维分布向量,在嵌入空间中保留图的拓扑信息(如高阶邻近性[5、76、105、34]和结构[55、102、42、17])。这样的嵌入向量可以被各种下游的机器学习算法直接执行[58,39,10]。

在异构网络与图嵌入的交叉点上,异构网络嵌入(HNE)近年来也得到了较多的研究关注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的应用优势,许多算法在不同的应用领域分别被开发出来,如搜索和推荐[23,63,6,89]。此外,由于知识库(KBs)也属于异构网络的一般范畴,许多KB嵌入算法可以与HNE算法相比较[81、3、40、68、88、15、48、79、60]。

不幸的是,不同的HNE算法是在学术界和工业界完全不同的社区开发的。无论是在概念上还是在实验中,都没有对其进行系统全面的分析。事实上,由于缺乏基准平台(有现成的数据集和基线),研究人员往往倾向于构建自己的数据集,并重新实现一些最流行的(有时是过时的)比较算法,这使得公平的性能评估和明确的改进属性变得极其困难。

只需考虑图1中发布数据小例子。较早的HNE算法如metapath2vec [16])是在作者、论文和场所节点类型为(a)的异构网络上发展起来的,但是可以像(b)那样用大量的术语和主题作为附加节点来丰富论文,这使得基于随机游走的浅嵌入算法效果不佳,而倾向于R-GCN[57]这样的基于邻域聚合的深度图神经网络。此外,还可以进一步加入术语嵌入等节点属性和研究领域等标签,使其只适用于半监督归纳学习算法,这可能会带来更大的偏差[104、82、33、54]。最后,通常很难清楚地将性能收益归因于技术新颖性和数据调整之间的关系。

在这项工作中,我们首先制定了一个统一而灵活的数学范式,概括了所有的HNE算法,便于理解每个模型的关键优点(第2节)。特别地,基于对现有模型(以及可能的未来模型)进行清晰分类和总结的统一分类,我们提出了网络平滑度的一般目标函数,并将所有现有的模型重新组织成统一的范式,同时突出其独特的新颖贡献(第3节)。我们认为该范式将有助于指导未来新型HNE算法的发展,同时促进它们与现有算法的概念对比。

作为第二个贡献,我们通过详尽的数据收集、清理、分析和整理(第4节),特意准备了四个基准的异构网络数据集,具有规模、结构、属性/标签可用性等多种属性。这些不同的数据集,以及一系列不同的网络挖掘任务和评估指标,构成了未来HNE算法的系统而全面的基准资源。

作为第三个贡献,许多现有的HNE算法(包括一些非常流行的算法)要么没有一个灵活的实现(例如,硬编码的节点和边缘类型、固定的元路径集等),要么不能扩展到更大的网络(例如,在训练期间的高内存需求),这给新的研究增加了很多负担(例如,,在正确的重新实现中需要大量的工程工作)。为此,我们选择了10种流行的HNE算法,在这些算法中,我们仔细地重构和扩展了原始作者的实现,并为我们准备好的数据集的插件输入应用了额外的接口(第5节)。基于这些易于使用和有效的实现,我们对算法进行了全面的经验评估,并报告了它们的基准性能。实证结果在提供了与第3节的概念分析相一致的不同模型的优点的同时,也为我们的基准平台的使用提供了范例,以供今后对HNE的研究参考。

本文的其余部分组织如下。第2节首先介绍我们提出的通用HNE范式。随后,第3节对我们调查中的代表性模型进行了概念上的分类和分析。然后,我们在第4节中提供了我们准备好的基准数据集,并进行了深入的分析。在第5节中,我们对10种常用的HNE算法进行了系统而全面的实证研究,对HNE的发展现状进行了评价。第六部分是对未来HNE平台使用和研究的展望。

异构网络示例

算法分类

Proximity-Preserving Methods

如前所述,网络嵌入的一个基本目标是捕获网络拓扑信息。这可以通过在节点之间保留不同类型的邻近性来实现。在HNE中,有两类主要的接近性保护方法:基于随机步法的方法(灵感来自DeepWalk[49])和基于一阶/二阶接近性的方法(灵感来自LINE[72])。

Message-Passing Methods

网络中的每个节点都可以将属性信息表示为特征向量xu。消息传递方法的目标是通过聚合来自u邻居的信息来学习基于xu的节点嵌入eu。在最近的研究中,图神经网络(GNNs)[37]被广泛用于促进这种聚合/消息传递过程。

Relation-Learning方法

异类网络中的每条边都可以看作是一个三元组(u, l, v),由两个节点u, v∈v和一个边缘类型l∈TE(即。,实体和关系,用KG表示)。关系学习方法的目标是学习一个评分函数sl(u, v),该函数对任意三元组求值并输出一个标量来度量该三元组的可接受性。这种思想在KB嵌入中被广泛采用。由于已经有关于KB嵌入算法的调查[81],我们在这里只讨论最流行的方法,并强调它们与HNE的联系。

基准

未来方向

在这项工作中,我们对各种现有的HNE算法进行了全面的调研,并提供了基准数据集和基线实现,以方便今后在这方面的研究。尽管HNE已经在各种下游任务中表现出了强大的性能,但它仍处于起步阶段,面临着许多尚未解决的挑战。为了总结这项工作并启发未来的研究,我们现在简要地讨论一下当前HNE的局限性和几个可能值得研究的具体方向。

超越同质性。如式(1)所述,目前的HNE算法主要关注网络同质性作用。由于最近对同构网络的研究,研究位置和结构嵌入的组合,探索如何将这种设计原则和范式推广到HNE将是很有趣的。特别是在异构网络中,节点的相对位置和结构角色都可以在不同的元路径或元图下测量,这自然更具有信息性和多样性。然而,这样的考虑也带来了更困难的计算挑战。

超越准确性。大多数,如果不是全部,现有的研究主要集中在对不同的下游任务的准确性。进一步研究HNE的效率和可扩展性(用于大规模网络)、时间适应性(用于动态演化网络)、鲁棒性(用于对抗攻击)、可解释性、不确定性、公平性等将是非常有趣的。

超越节点嵌入。图级和子图级嵌入在同构网络上得到了广泛的研究,但在异构网络上却很少有研究。虽然诸如HIN2Vec[22]等现有的工作都在研究元路径的嵌入以改进节点的嵌入,但是图和子图级嵌入在异构网络环境中的直接应用仍然处于萌芽状态。

回顾KB嵌入。KB嵌入与其他HNE类型的区别主要在于节点和链接类型的数量不同。直接将KB嵌入到异构网络中不能考虑具有丰富语义的元路径,而将HNE直接应用到KB中由于元路径的数量呈指数增长而不现实。然而,研究这两组方法(以及两种类型的数据)之间的交集仍然很有趣。例如,我们如何将异构网络上的元路径和HNE在KB上嵌入转换的思想与更多的语义感知转换结合起来?我们如何设计基于截断随机游走的方法来包含高阶关系的知识库嵌入?

异构上下文建模。异构网络主要模拟不同类型的节点和链接。然而,现在的网络常常与丰富的内容相关联,这些内容提供了节点、链接和子网的上下文。因此,如何通过多模态内容和结构的集成来对多方面环境下的异构交互进行建模可能是一个具有挑战性但值得研究的领域。

理解局限性。虽然HNE(以及许多神经表示学习模型)已经在各个领域显示出了强大的性能,但值得了解其潜在的局限性。例如,与传统的网络挖掘方法(例如,路径计数、子图匹配、非神经或线性传播)相比,现代HNE算法何时能更好地工作?我们怎样才能把两个世界的优点结合起来呢?此外,虽然对同构网络数据的神经网络背后的数学机制(如平滑、低通滤波、不变和等变变换)进行了深入的研究,通过统一现有的HNE模型,本工作也旨在激发对HNE的能力和局限性的进一步理论研究。

成为VIP会员查看完整内容
0
54

大数据正在成为智能交通系统(ITS)的一个研究热点,这可以在世界各地的许多项目中看到。智能交通系统会产生大量的数据,将对智能交通系统的设计和应用产生深远的影响,从而使智能交通系统更安全、更高效、更有利可图。在ITS中研究大数据分析是一个蓬勃发展的领域。本文首先回顾了大数据和智能交通系统的发展历史和特点,接着讨论了ITS系统中进行大数据分析的框架,总结了ITS系统中的数据源和采集方法、数据分析方法和平台以及大数据分析应用领域。同时介绍了大数据分析在智能交通系统中的几个应用实例,包括道路交通事故分析、道路交通流量预测、公共交通服务规划、个人出行路线规划、轨道交通管理与控制、资产维护等。最后,本文讨论了在ITS中应用大数据分析的一些开放性挑战。

成为VIP会员查看完整内容
0
34

题目: Attention Models in Graphs: A Survey

摘要: 图结构数据自然地出现在许多不同的应用领域。通过将数据表示为图形,我们可以捕获实体(即节点)以及它们之间的关系(即边)。许多有用的见解可以从图形结构的数据中得到,这一点已被越来越多的关注于图形挖掘的工作所证明。然而,在现实世界中,图可以是大的-有许多复杂的模式-和噪声,这可能会给有效的图挖掘带来问题。解决这一问题的一个有效方法是将“注意力”融入到图挖掘解决方案中。注意机制允许一个方法关注图中与任务相关的部分,帮助它做出更好的决策。在这项工作中,我们对图形注意模型这一新兴领域的文献进行了全面而集中的调查。我们介绍了三个直观的分类组现有的工作。它们基于问题设置(输入和输出类型)、使用的注意机制类型和任务(例如,图形分类、链接预测等)。我们通过详细的例子来激励我们的分类法,并使用每种方法从一个独特的角度来调查竞争方法。最后,我们强调了该领域的几个挑战,并讨论了未来工作的前景。

作者简介: Ryan A. Rossi,目前在Adobe Research工作,研究领域是机器学习;涉及社会和物理现象中的大型复杂关系(网络/图形)数据的理论、算法和应用。在普渡大学获得了计算机科学博士和硕士学位。

Nesreen K. Ahmed,英特尔实验室的高级研究员。她在普渡大学计算机科学系获得博士学位,在普渡大学获得统计学和计算机科学硕士学位。研究方向是机器学习和数据挖掘,涵盖了大规模图挖掘、统计机器学习的理论和算法,以及它们在社会和信息网络中的应用。

成为VIP会员查看完整内容
0
63

题目: Understanding Deep Learning Techniques for Image Segmentation

简介: 机器学习已被大量基于深度学习的方法所淹没。各种类型的深度神经网络(例如卷积神经网络,递归网络,对抗网络,自动编码器等)有效地解决了许多具有挑战性的计算机视觉任务,例如在不受限制的环境中对对象进行检测,定位,识别和分割。尽管有很多关于对象检测或识别领域的分析研究,但相对于图像分割技术,出现了许多新的深度学习技术。本文从分析的角度探讨了图像分割的各种深度学习技术。这项工作的主要目的是提供对图像分割领域做出重大贡献的主要技术的直观理解。从一些传统的图像分割方法开始,本文进一步描述了深度学习对图像分割域的影响。此后,大多数主要的分割算法已按照专用于其独特贡献的段落进行了逻辑分类。

成为VIP会员查看完整内容
Understanding Deep Learning Techniques for Image Segmentation.pdf
0
37
小贴士
相关资讯
图数据表示学习综述论文
专知
22+阅读 · 2019年6月10日
自然语言处理常识推理综述论文,60页pdf
专知
13+阅读 · 2019年4月4日
AI人必看!89页全网最全清华知识图谱报告
智东西
16+阅读 · 2019年2月16日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
32+阅读 · 2017年11月16日
综述 | 知识图谱发展概述
PaperWeekly
54+阅读 · 2017年11月3日
综述 | 知识图谱向量化表示
开放知识图谱
21+阅读 · 2017年10月26日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
47+阅读 · 2017年9月28日
相关论文
Suyu Ge,Chuhan Wu,Fangzhao Wu,Tao Qi,Yongfeng Huang
9+阅读 · 3月31日
Qingyu Guo,Fuzhen Zhuang,Chuan Qin,Hengshu Zhu,Xing Xie,Hui Xiong,Qing He
39+阅读 · 2月28日
KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning
Bill Yuchen Lin,Xinyue Chen,Jamin Chen,Xiang Ren
6+阅读 · 2019年9月4日
Pluralistic Image Completion
Chuanxia Zheng,Tat-Jen Cham,Jianfei Cai
3+阅读 · 2019年3月11日
Ivana Balazevic,Carl Allen,Timothy M. Hospedales
7+阅读 · 2018年10月18日
Learning Visual Question Answering by Bootstrapping Hard Attention
Mateusz Malinowski,Carl Doersch,Adam Santoro,Peter Battaglia
4+阅读 · 2018年8月1日
Tim Dettmers,Pasquale Minervini,Pontus Stenetorp,Sebastian Riedel
20+阅读 · 2018年4月6日
Danna Gurari,Qing Li,Abigale J. Stangl,Anhong Guo,Chi Lin,Kristen Grauman,Jiebo Luo,Jeffrey P. Bigham
8+阅读 · 2018年2月22日
Diego Moussallem,Matthias Wauer,Axel-Cyrille Ngonga Ngomo
8+阅读 · 2018年2月1日
Top