现实网络由多种相互作用、不断进化的实体组成,而现有的研究大多将其简单地描述为特定的静态网络,而没有考虑动态网络的演化趋势。近年来,动态网络的特性跟踪研究取得了重大进展,利用网络中实体和链接的变化来设计网络嵌入技术。与被广泛提出的静态网络嵌入方法相比,动态网络嵌入努力将节点编码为低维密集表示,有效地保持了网络结构和时间动态,有利于处理各种下游机器学习任务。本文对动态网络嵌入问题进行了系统的研究,重点介绍了动态网络嵌入的基本概念,首次对现有的动态网络嵌入技术进行了分类,包括基于矩阵分解的、基于跃格的、基于自动编码器的、基于神经网络的等嵌入方法。此外,我们仔细总结了常用的数据集和各种各样的后续任务,动态网络嵌入可以受益。在此基础上,提出了动态嵌入模型、大规模动态网络、异构动态网络、动态属性网络、面向任务的动态网络嵌入以及更多的嵌入空间等现有算法面临的挑战,并提出了未来可能的研究方向。

成为VIP会员查看完整内容
0
60

相关内容

题目: A Survey on Dynamic Network Embedding

简介:

现实世界的网络由各种相互作用和不断发展的实体组成,而大多数现有研究只是将它们描述为特定的静态网络,而没有考虑动态网络的发展趋势。近来,在跟踪动态网络特性方面取得了重大进展,它利用网络中实体和链接的变化来设计网络嵌入技术。与静态网络嵌入方法相比,动态网络嵌入致力于将节点编码为低维密集表示形式,从而有效地保留了网络结构和时间动态特性,这对众多下游机器学习任务是有益的。在本文中,我们对动态网络嵌入进行了系统的调查。特别是,描述了动态网络嵌入的基本概念,特别是,我们首次提出了一种基于现有动态网络嵌入技术的新分类法,包括基于矩阵分解的方法,基于Skip-Gram的方法,基于自动编码器,基于神经网络和其他嵌入方法。此外,我们仔细总结了常用的数据集以及动态网络嵌入可以带来的各种后续任务。之后,我们提出了现有算法面临的几个挑战,并概述了促进未来研究的可能方向,例如动态嵌入模型,大规模动态网络,异构动态网络,动态属性网络,面向任务的动态网络嵌入和更多的嵌入空间。

成为VIP会员查看完整内容
0
31

随着web技术的发展,多模态或多视图数据已经成为大数据的主要流,每个模态/视图编码数据对象的单个属性。不同的模态往往是相辅相成的。这就引起了人们对融合多模态特征空间来综合表征数据对象的研究。大多数现有的先进技术集中于如何融合来自多模态空间的能量或信息,以提供比单一模态的同行更优越的性能。最近,深度神经网络展示了一种强大的架构,可以很好地捕捉高维多媒体数据的非线性分布,对多模态数据自然也是如此。大量的实证研究证明了深多模态方法的优势,从本质上深化了多模态深特征空间的融合。在这篇文章中,我们提供了从浅到深空间的多模态数据分析领域的现有状态的实质性概述。在整个调查过程中,我们进一步指出,该领域的关键要素是多模式空间的协作、对抗性竞争和融合。最后,我们就这一领域未来的一些方向分享我们的观点。

成为VIP会员查看完整内容
0
88

深度学习在许多领域都取得了重大突破和进展。这是因为深度学习具有强大的自动表示能力。实践证明,网络结构的设计对数据的特征表示和最终的性能至关重要。为了获得良好的数据特征表示,研究人员设计了各种复杂的网络结构。然而,网络架构的设计在很大程度上依赖于研究人员的先验知识和经验。因此,一个自然的想法是尽量减少人为的干预,让算法自动设计网络的架构。因此,这需要更深入到强大的智慧。

近年来,大量相关的神经结构搜索算法(NAS)已经出现。他们对NAS算法进行了各种改进,相关研究工作复杂而丰富。为了减少初学者进行NAS相关研究的难度,对NAS进行全面系统的调查是必不可少的。之前的相关调查开始主要从NAS的基本组成部分: 搜索空间、搜索策略和评估策略对现有工作进行分类。这种分类方法比较直观,但是读者很难把握中间的挑战和标志性作品。因此,在本次调查中,我们提供了一个新的视角:首先概述最早的NAS算法的特点,总结这些早期NAS算法存在的问题,然后为后续的相关研究工作提供解决方案。并对这些作品进行了详细而全面的分析、比较和总结。最后,提出了今后可能的研究方向。

概述

深度学习已经在机器翻译[1-3]、图像识别[4,6,7]和目标检测[8-10]等许多领域展示了强大的学习能力。这主要是因为深度学习对非结构化数据具有强大的自动特征提取功能。深度学习已经将传统的手工设计特征[13,14]转变为自动提取[4,29,30]。这使得研究人员可以专注于神经结构的设计[11,12,19]。但是神经结构的设计很大程度上依赖于研究者的先验知识和经验,这使得初学者很难根据自己的实际需要对网络结构进行合理的修改。此外,人类现有的先验知识和固定的思维范式可能会在一定程度上限制新的网络架构的发现。

因此,神经架构搜索(NAS)应运而生。NAS旨在通过使用有限的计算资源,以尽可能少的人工干预的自动化方式设计具有最佳性能的网络架构。NAS- RL[11]和MetaQNN[12]的工作被认为是NAS的开创性工作。他们使用强化学习(RL)方法得到的网络架构在图像分类任务上达到了SOTA分类精度。说明自动化网络架构设计思想是可行的。随后,大规模演化[15]的工作再次验证了这一想法的可行性,即利用演化学习来获得类似的结果。然而,它们在各自的方法中消耗了数百天的GPU时间,甚至更多的计算资源。如此庞大的计算量对于普通研究者来说几乎是灾难性的。因此,如何减少计算量,加速网络架构的搜索[18-20,48,49,52,84,105]就出现了大量的工作。与NAS的提高搜索效率,NAS也迅速应用领域的目标检测(65、75、111、118),语义分割(63、64、120),对抗学习[53],建筑规模(114、122、124),多目标优化(39、115、125),platform-aware(28日34、103、117),数据增加(121、123)等等。另外,如何在性能和效率之间取得平衡也是需要考虑的问题[116,119]。尽管NAS相关的研究已经非常丰富,但是比较和复制NAS方法仍然很困难[127]。由于不同的NAS方法在搜索空间、超参数技巧等方面存在很多差异,一些工作也致力于为流行的NAS方法提供一个统一的评估平台[78,126]。

随着NAS相关研究的不断深入和快速发展,一些之前被研究者所接受的方法被新的研究证明是不完善的。很快就有了改进的解决方案。例如,早期的NAS在架构搜索阶段从无到有地训练每个候选网络架构,导致计算量激增[11,12]。ENAS[19]提出采用参数共享策略来加快架构搜索的进程。该策略避免了从头训练每个子网,但强制所有子网共享权值,从而大大减少了从大量候选网络中获得性能最佳子网的时间。由于ENAS在搜索效率上的优势,权值共享策略很快得到了大量研究者的认可[23,53,54]。不久,新的研究发现,广泛接受的权重分配策略很可能导致候选架构[24]的排名不准确。这将使NAS难以从大量候选架构中选择最优的网络架构,从而进一步降低最终搜索的网络架构的性能。随后DNA[21]将NAS的大搜索空间模块化成块,充分训练候选架构以减少权值共享带来的表示移位问题。此外,GDAS-NSAS[25]提出了一种基于新的搜索架构选择(NSAS)损失函数来解决超网络训练过程中由于权值共享而导致的多模型遗忘问题。

在快速发展的NAS研究领域中,类似的研究线索十分普遍,基于挑战和解决方案对NAS研究进行全面、系统的调研是非常有用的。以往的相关综述主要根据NAS的基本组成部分: 搜索空间、搜索策略和评估策略对现有工作进行分类[26,27]。这种分类方法比较直观,但不利于读者捕捉研究线索。因此,在本次综述查中,我们将首先总结早期NAS方法的特点和面临的挑战。基于这些挑战,我们对现有研究进行了总结和分类,以便读者能够从挑战和解决方案的角度进行一个全面和系统的概述。最后,我们将比较现有的研究成果,并提出未来可能的研究方向和一些想法。

成为VIP会员查看完整内容
0
51

深度神经网络(DNN)是实现人类在许多学习任务上的水平的不可缺少的机器学习工具。然而,由于其黑箱特性,很难理解输入数据的哪些方面驱动了网络的决策。在现实世界中,人类需要根据输出的dna做出可操作的决定。这种决策支持系统可以在关键领域找到,如立法、执法等。重要的是,做出高层决策的人员能够确保DNN决策是由数据特征的组合驱动的,这些数据特征在决策支持系统的部署上下文中是适当的,并且所做的决策在法律上或伦理上是可辩护的。由于DNN技术发展的惊人速度,解释DNN决策过程的新方法和研究已经发展成为一个活跃的研究领域。在定义什么是能够解释深度学习系统的行为和评估系统的“解释能力”时所存在的普遍困惑,进一步加剧了这种复杂性。为了缓解这一问题,本文提供了一个“领域指南”,为那些在该领域没有经验的人提供深度学习解释能力指南: i)讨论了研究人员在可解释性研究中增强的深度学习系统的特征,ii)将可解释性放在其他相关的深度学习研究领域的背景下,iii)介绍了定义基础方法空间的三个简单维度。

成为VIP会员查看完整内容
0
77

【导读】异构网络表示学习Heterogeneous Network Representation Learning是当前自数据挖掘以及其他应用的研究热点,在众多任务中具有重要的应用。近日,UIUC韩家炜等学者发布了异构网络表示学习的综述大全,共15页pdf115篇参考文献,从背景知识到当前代表性HNE模型和应用研究挑战等,是最新可参考绝好的异构网络表示学习模型的文献。

由于现实世界中的对象及其交互通常是多模态和多类型的,所以异构网络被广泛地用作传统同构网络(图)的一个更强大、更现实和更通用的超类。与此同时,表示学习(representation learning,又称嵌入)最近得到了深入的研究,并被证明对各种网络挖掘和分析任务都是有效的。由于已有大量的异构网络嵌入(HNE)算法,但没有专门的调研综述,作为这项工作的第一个贡献,我们率先提供了一个统一的范式,对各种现有的HNE算法的优点进行系统的分类和分析。此外,现有的HNE算法虽然大多被认为是通用的,但通常是在不同的数据集上进行评估。由于HNE在应用上的天然优势,这种间接的比较在很大程度上阻碍了任务性能的改善,特别是考虑到从真实世界的应用数据构建异构网络的各种可能的方法。因此,作为第二项贡献,我们创建了四个基准数据集,这些数据集具有不同来源的尺度、结构、属性/标签可用性等不同属性,以全面评估HNE算法。作为第三个贡献,我们对十种流行的HNE算法的实现进行了细致的重构和修改,并创建了友好的接口,并在多个任务和实验设置上对它们进行了全方位的比较。

1.概述

网络和图形构成了一种规范的、普遍存在的交互对象建模范式,已经引起了各个科学领域的重要研究关注[59、30、24、3、89、87]。然而,现实世界的对象和交互通常是多模态和多类型的(例如,作者、论文、场所和出版物网络中的术语[69,65];基于位置的社交网络中的用户、地点、类别和gps坐标[101,91,94];以及生物医学网络中的基因、蛋白质、疾病和物种[38,14])。为了捕获和利用这种节点和链路的异构性,异构网络被提出并广泛应用于许多真实的网络挖掘场景中,如基于元路径的相似度搜索[70、64、92]、节点分类和聚类[18、20、11]、知识库补全[68、48、103]和推荐[23、106、31]。

与此同时,目前对图数据的研究主要集中在表示学习(图数据嵌入)方面,特别是在神经网络算法的先行者们展示了前所未有的有效而高效的图数据挖掘的经验证据之后[25,4,13]。他们的目标是将图数据(如节点[49、72、26、77、37、28、9、75]、链接[107、1、50、96]和子图[47、93、97、45])转换为嵌入空间中的低维分布向量,在嵌入空间中保留图的拓扑信息(如高阶邻近性[5、76、105、34]和结构[55、102、42、17])。这样的嵌入向量可以被各种下游的机器学习算法直接执行[58,39,10]。

在异构网络与图嵌入的交叉点上,异构网络嵌入(HNE)近年来也得到了较多的研究关注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的应用优势,许多算法在不同的应用领域分别被开发出来,如搜索和推荐[23,63,6,89]。此外,由于知识库(KBs)也属于异构网络的一般范畴,许多KB嵌入算法可以与HNE算法相比较[81、3、40、68、88、15、48、79、60]。

不幸的是,不同的HNE算法是在学术界和工业界完全不同的社区开发的。无论是在概念上还是在实验中,都没有对其进行系统全面的分析。事实上,由于缺乏基准平台(有现成的数据集和基线),研究人员往往倾向于构建自己的数据集,并重新实现一些最流行的(有时是过时的)比较算法,这使得公平的性能评估和明确的改进属性变得极其困难。

只需考虑图1中发布数据小例子。较早的HNE算法如metapath2vec [16])是在作者、论文和场所节点类型为(a)的异构网络上发展起来的,但是可以像(b)那样用大量的术语和主题作为附加节点来丰富论文,这使得基于随机游走的浅嵌入算法效果不佳,而倾向于R-GCN[57]这样的基于邻域聚合的深度图神经网络。此外,还可以进一步加入术语嵌入等节点属性和研究领域等标签,使其只适用于半监督归纳学习算法,这可能会带来更大的偏差[104、82、33、54]。最后,通常很难清楚地将性能收益归因于技术新颖性和数据调整之间的关系。

在这项工作中,我们首先制定了一个统一而灵活的数学范式,概括了所有的HNE算法,便于理解每个模型的关键优点(第2节)。特别地,基于对现有模型(以及可能的未来模型)进行清晰分类和总结的统一分类,我们提出了网络平滑度的一般目标函数,并将所有现有的模型重新组织成统一的范式,同时突出其独特的新颖贡献(第3节)。我们认为该范式将有助于指导未来新型HNE算法的发展,同时促进它们与现有算法的概念对比。

作为第二个贡献,我们通过详尽的数据收集、清理、分析和整理(第4节),特意准备了四个基准的异构网络数据集,具有规模、结构、属性/标签可用性等多种属性。这些不同的数据集,以及一系列不同的网络挖掘任务和评估指标,构成了未来HNE算法的系统而全面的基准资源。

作为第三个贡献,许多现有的HNE算法(包括一些非常流行的算法)要么没有一个灵活的实现(例如,硬编码的节点和边缘类型、固定的元路径集等),要么不能扩展到更大的网络(例如,在训练期间的高内存需求),这给新的研究增加了很多负担(例如,,在正确的重新实现中需要大量的工程工作)。为此,我们选择了10种流行的HNE算法,在这些算法中,我们仔细地重构和扩展了原始作者的实现,并为我们准备好的数据集的插件输入应用了额外的接口(第5节)。基于这些易于使用和有效的实现,我们对算法进行了全面的经验评估,并报告了它们的基准性能。实证结果在提供了与第3节的概念分析相一致的不同模型的优点的同时,也为我们的基准平台的使用提供了范例,以供今后对HNE的研究参考。

本文的其余部分组织如下。第2节首先介绍我们提出的通用HNE范式。随后,第3节对我们调查中的代表性模型进行了概念上的分类和分析。然后,我们在第4节中提供了我们准备好的基准数据集,并进行了深入的分析。在第5节中,我们对10种常用的HNE算法进行了系统而全面的实证研究,对HNE的发展现状进行了评价。第六部分是对未来HNE平台使用和研究的展望。

异构网络示例

算法分类

Proximity-Preserving Methods

如前所述,网络嵌入的一个基本目标是捕获网络拓扑信息。这可以通过在节点之间保留不同类型的邻近性来实现。在HNE中,有两类主要的接近性保护方法:基于随机步法的方法(灵感来自DeepWalk[49])和基于一阶/二阶接近性的方法(灵感来自LINE[72])。

Message-Passing Methods

网络中的每个节点都可以将属性信息表示为特征向量xu。消息传递方法的目标是通过聚合来自u邻居的信息来学习基于xu的节点嵌入eu。在最近的研究中,图神经网络(GNNs)[37]被广泛用于促进这种聚合/消息传递过程。

Relation-Learning方法

异类网络中的每条边都可以看作是一个三元组(u, l, v),由两个节点u, v∈v和一个边缘类型l∈TE(即。,实体和关系,用KG表示)。关系学习方法的目标是学习一个评分函数sl(u, v),该函数对任意三元组求值并输出一个标量来度量该三元组的可接受性。这种思想在KB嵌入中被广泛采用。由于已经有关于KB嵌入算法的调查[81],我们在这里只讨论最流行的方法,并强调它们与HNE的联系。

基准

未来方向

在这项工作中,我们对各种现有的HNE算法进行了全面的调研,并提供了基准数据集和基线实现,以方便今后在这方面的研究。尽管HNE已经在各种下游任务中表现出了强大的性能,但它仍处于起步阶段,面临着许多尚未解决的挑战。为了总结这项工作并启发未来的研究,我们现在简要地讨论一下当前HNE的局限性和几个可能值得研究的具体方向。

超越同质性。如式(1)所述,目前的HNE算法主要关注网络同质性作用。由于最近对同构网络的研究,研究位置和结构嵌入的组合,探索如何将这种设计原则和范式推广到HNE将是很有趣的。特别是在异构网络中,节点的相对位置和结构角色都可以在不同的元路径或元图下测量,这自然更具有信息性和多样性。然而,这样的考虑也带来了更困难的计算挑战。

超越准确性。大多数,如果不是全部,现有的研究主要集中在对不同的下游任务的准确性。进一步研究HNE的效率和可扩展性(用于大规模网络)、时间适应性(用于动态演化网络)、鲁棒性(用于对抗攻击)、可解释性、不确定性、公平性等将是非常有趣的。

超越节点嵌入。图级和子图级嵌入在同构网络上得到了广泛的研究,但在异构网络上却很少有研究。虽然诸如HIN2Vec[22]等现有的工作都在研究元路径的嵌入以改进节点的嵌入,但是图和子图级嵌入在异构网络环境中的直接应用仍然处于萌芽状态。

回顾KB嵌入。KB嵌入与其他HNE类型的区别主要在于节点和链接类型的数量不同。直接将KB嵌入到异构网络中不能考虑具有丰富语义的元路径,而将HNE直接应用到KB中由于元路径的数量呈指数增长而不现实。然而,研究这两组方法(以及两种类型的数据)之间的交集仍然很有趣。例如,我们如何将异构网络上的元路径和HNE在KB上嵌入转换的思想与更多的语义感知转换结合起来?我们如何设计基于截断随机游走的方法来包含高阶关系的知识库嵌入?

异构上下文建模。异构网络主要模拟不同类型的节点和链接。然而,现在的网络常常与丰富的内容相关联,这些内容提供了节点、链接和子网的上下文。因此,如何通过多模态内容和结构的集成来对多方面环境下的异构交互进行建模可能是一个具有挑战性但值得研究的领域。

理解局限性。虽然HNE(以及许多神经表示学习模型)已经在各个领域显示出了强大的性能,但值得了解其潜在的局限性。例如,与传统的网络挖掘方法(例如,路径计数、子图匹配、非神经或线性传播)相比,现代HNE算法何时能更好地工作?我们怎样才能把两个世界的优点结合起来呢?此外,虽然对同构网络数据的神经网络背后的数学机制(如平滑、低通滤波、不变和等变变换)进行了深入的研究,通过统一现有的HNE模型,本工作也旨在激发对HNE的能力和局限性的进一步理论研究。

成为VIP会员查看完整内容
0
68

图神经网络是解决各种图学习问题的有效的机器学习模型。尽管它们取得了经验上的成功,但是GNNs的理论局限性最近已经被揭示出来。因此,人们提出了许多GNN模型来克服这些限制。在这次调查中,我们全面概述了GNNs的表达能力和可证明的强大的GNNs变体。

成为VIP会员查看完整内容
0
80

在本文中,我们对知识图谱进行了全面的介绍,在需要开发多样化、动态、大规模数据收集的场景中,知识图谱最近引起了业界和学术界的极大关注。在大致介绍之后,我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论模式、标识和上下文在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们如何使用上述技术。最后,我们总结了未来高层次的知识图谱研究方向。

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440],但它的现代形式起源于2012年发布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明,学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题,其中包括书籍(如[400]),以及概述定义(如[136])的论文,新技术(如[298,399,521]),以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据,通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下,与关系模型或NoSQL替代方案相比,使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象,其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义,允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展,特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同,专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等),而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等,以获得对所描述领域的洞察。各种表示形式也被开发出来,支持直接在图上应用机器学习技术[519,527]。

总之,构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是,我们还没有看到一个通用的统一总结,它描述了如何使用知识图谱,使用了哪些技术,以及它们如何与现有的数据管理主题相关。

本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此,我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136],其中出现了一些(有时相互冲突的)定义,从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里,我们采用了一个包容性的定义,其中我们将知识图谱视为一个数据图,目的是积累和传递真实世界的知识,其节点表示感兴趣的实体,其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型,它可以是一个有向边标记的图,一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累,也可以从知识图谱本身中提取。知识可以由简单的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句,那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如,“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源,因此,在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布,使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459],推荐[83,205,214,365],个人代理[392],广告[214],商业分析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

结构。本文件其余部分的结构如下:

  • 第2节概述了图形数据模型和可用于查询它们的语言。
  • 第3节描述了知识图谱中模式、标识和上下文的表示形式。
  • 第四节介绍了演绎式的形式主义,通过这种形式主义,知识可以被描述和推导出来。
  • 第5节描述了可以提取额外知识的归纳技术。
  • 第6节讨论了如何从外部资源中创建和丰富知识图谱。
  • 第7节列举了可用于评估知识图谱的质量维度。
  • 第8节讨论知识图谱细化的各种技术。
  • 第9节讨论发布知识图谱的原则和协议。
  • 第10节介绍了一些著名的知识图谱及其应用。
  • 第11节总结了知识图谱的研究概况和未来的研究方向。
  • 附录A提供了知识图谱的历史背景和以前的定义。
  • 附录B列举了将从论文正文中引用的正式定义。
成为VIP会员查看完整内容
0
301

【导读】近年来,随着网络数据量的不断增加,挖掘图形数据已成为计算机科学领域的热门研究课题,在学术界和工业界都得到了广泛的研究。但是,大量的网络数据为有效分析带来了巨大的挑战。因此激发了图表示的出现,该图表示将图映射到低维向量空间中,同时保持原始图结构并支持图推理。图的有效表示的研究具有深远的理论意义和重要的现实意义,本教程将介绍图表示/网络嵌入的一些基本思想以及一些代表性模型。

关于图或网络的文献有两个名称:图表示和网络嵌入。我们注意到图和网络都指的是同一种结构,尽管它们每个都有自己的术语,例如,图和网络的顶点和边。挖掘图/网络的核心依赖于正确表示的图/网络,这使得图/网络上的表示学习成为学术界和工业界的基本研究问题。传统表示法直接基于拓扑图来表示图,通常会导致许多问题,包括稀疏性,高计算复杂性等,从而激发了基于机器学习的方法的出现,这种方法探索了除矢量空间中的拓扑结构外还能够捕获额外信息的潜在表示。因此,对于图来说,“良好”的潜在表示可以更加精确的表示图形。但是,学习网络表示面临以下挑战:高度非线性,结构保持,属性保持,稀疏性。

深度学习在处理非线性方面的成功为我们提供了研究新方向,我们可以利用深度学习来提高图形表示学习的性能,作者在教程中讨论了将深度学习技术与图表示学习相结合的一些最新进展,主要分为两类方法:面向结构的深层方法和面向属性的深层方法。

对于面向结构的方法:

  • 结构性深层网络嵌入(SDNE),专注于保持高阶邻近度。

  • 深度递归网络嵌入(DRNE),其重点是维护全局结构。

  • 深度超网络嵌入(DHNE),其重点是保留超结构。

对于面向属性的方法:

  • 专注于不确定性属性的深度变异网络嵌入(DVNE)。

  • 深度转换的基于高阶Laplacian高斯过程(DepthLGP)的网络嵌入,重点是动态属性。

本教程的第二部分就以上5种方法,通过对各个方法的模型介绍、算法介绍、对比分析等不同方面进行详细介绍。

1、Structural Deep Network Embedding

network embedding,是为网络中的节点学习出一个低维表示的方法。目的在于在低维中保持高度非线性的网络结构特征,但现有方法多采用浅层网络不足以挖掘高度非线性,或同时保留局部和全局结构特征。本文提出一种结构化深度网络嵌入方法,叫SDNE该方法用半监督的深度模型来捕捉高度非线性结构,通过结合一阶相似性(监督)和二阶相似性(非监督)来保留局部和全局特征。

2、 Deep recursive network embedding with regular equivalence

网络嵌入旨在保留嵌入空间中的顶点相似性。现有方法通常通过节点之间的连接或公共邻域来定义相似性,即结构等效性。但是,位于网络不同部分的顶点可能具有相似的角色或位置,即规则的等价关系,在网络嵌入的文献中基本上忽略了这一点。以递归的方式定义规则对等,即两个规则对等的顶点具有也规则对等的网络邻居。因此,文章中提出了一种名为深度递归网络嵌入(DRNE)的新方法来学习具有规则等价关系的网络嵌入。更具体地说,我们提出了一种层归一化LSTM,以递归的方式通过聚合邻居的表示方法来表示每个节点。

3、Structural Deep Embedding for Hyper-Networks

是在hyperedge(超边是不可分解的)的基础上保留object的一阶和二阶相似性,学习异质网络表示。于与HEBE的区别在于,本文考虑了网络high-oeder网络结构和高度稀疏性。

传统的基于clique expansion 和star expansion的方法,显式或者隐式地分解网络。也就说,分解后hyper edge节点地子集,依然可以构成一个新的超边。对于同质网络这个假设是合理地,因为同质网络地超边,大多数情况下都是根据潜在地相似性(共同地标签等)构建的。

4、** Deep variational network embedding in wasserstein space**

大多数现有的嵌入方法将节点作为点向量嵌入到低维连续空间中。这样,边缘的形成是确定性的,并且仅由节点的位置确定。但是,现实世界网络的形成和发展充满不确定性,这使得这些方法不是最优的。为了解决该问题,在本文中提出了一种新颖的在Wasserstein空间中嵌入深度变分网络(DVNE)。所提出的方法学习在Wasserstein空间中的高斯分布作为每个节点的潜在表示,它可以同时保留网络结构并为节点的不确定性建模。具体来说,我们使用2-Wasserstein距离作为分布之间的相似性度量,它可以用线性计算成本很好地保留网络中的传递性。此外,我们的方法通过深度变分模型隐含了均值和方差的数学相关性,可以通过均值矢量很好地捕获节点的位置,而由方差可以很好地捕获节点的不确定性。此外,本文方法通过保留网络中的一阶和二阶邻近性来捕获局部和全局网络结构。

5、Learning embeddings of out-of-sample nodes in dynamic networks

迄今为止的网络嵌入算法主要是为静态网络设计的,在学习之前,所有节点都是已知的。如何为样本外节点(即学习后到达的节点)推断嵌入仍然是一个悬而未决的问题。该问题对现有方法提出了很大的挑战,因为推断的嵌入应保留复杂的网络属性,例如高阶邻近度,与样本内节点嵌入具有相似的特征(即具有同质空间),并且计算成本较低。为了克服这些挑战,本文提出了一种深度转换的高阶拉普拉斯高斯过程(DepthLGP)方法来推断样本外节点的嵌入。DepthLGP结合了非参数概率建模和深度学习的优势。特别是,本文设计了一个高阶Laplacian高斯过程(hLGP)来对网络属性进行编码,从而可以进行快速和可扩展的推理。为了进一步确保同质性,使用深度神经网络来学习从hLGP的潜在状态到节点嵌入的非线性转换。DepthLGP是通用的,因为它适用于任何网络嵌入算法学习到的嵌入。

成为VIP会员查看完整内容
0
160

1、题目: Advances and Open Problems in Federated Learning

简介: 联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。最近来自斯坦福、CMU、Google等25家机构58位学者共同发表了关于联邦学习最新进展与开放问题的综述论文《Advances and Open Problems in Federated Learning》,共105页pdf调研了438篇文献,讲解了最新联邦学习进展,并提出大量开放型问题。

2、题目: Deep learning for time series classification: a review

简介: 时间序列分类(Time Series Classification, TSC )是数据挖掘中的一个重要而富有挑战性的问题。随着时间序列数据可用性的提高,已经提出了数百种TSC算法。在这些方法中,只有少数考虑使用深度神经网络来完成这项任务。这令人惊讶,因为在过去几年里,深度学习得到了非常成功的应用。DNNs的确已经彻底改变了计算机视觉领域,特别是随着新型更深层次的结构的出现,如残差和卷积神经网络。除了图像,文本和音频等连续数据也可以用DNNs处理,以达到文档分类和语音识别的最新性能。在本文中,本文通过对TSC最新DNN架构的实证研究,研究了TSC深度学习算法的最新性能。在TSC的DNNs统一分类场景下,本文概述了各种时间序列领域最成功的深度学习应用。本文还为TSC社区提供了一个开源的深度学习框架,实现了本文所对比的各种方法,并在单变量TSC基准( UCR archive)和12个多变量时间序列数据集上对它们进行了评估。通过在97个时间序列数据集上训练8730个深度学习模型,本文提出了迄今为止针对TSC的DNNs的最详尽的研究。

3、 题目: Optimization for deep learning: theory and algorithms

简介: 本文概述了用于训练神经网络的优化算法和理论。 首先,我们讨论梯度爆炸/消失的问题以及不希望有的频谱的更一般性的问题,然后讨论实用的解决方案,包括仔细的初始化和归一化方法。 其次,我们回顾了用于训练神经网络的通用优化方法,例如SGD,自适应梯度法和分布式方法,以及这些算法的现有理论结果。 第三,我们回顾了有关神经网络训练的全球性问题的现有研究,包括不良局部极小值,模式连通性,彩票假说和无限宽度分析的结果。

4、题目: Optimization for deep learning: theory and algorithms

简介: 本文概述了用于训练神经网络的优化算法和理论。 首先,我们讨论梯度爆炸/消失的问题以及不希望有的频谱的一般性的问题,然后讨论解决方案,包括初始化和归一化方法。 其次,我们回顾了用于训练神经网络的通用优化方法,例如SGD,自适应梯度法和分布式方法,以及这些算法的现有理论结果。 第三,我们回顾了有关神经网络训练的现有研究。

5、题目: Normalizing Flows for Probabilistic Modeling and Inference

简介: 归一化流提供了一种定义表达概率分布的通用机制,只需要指定基本分布和一系列双射变换。 最近有许多关于标准化流的工作,从提高其表达能力到扩展其应用。 我们认为该领域已经成熟,需要一个统一的观点。 在这篇综述中,我们试图通过概率建模和推理的视角描述流量来提供这样的观点。 我们特别强调流程设计的基本原理,并讨论诸如表达能力和计算权衡等基本主题。 通过将流量与更一般的概率转换相关联,我们还扩大了flow的概念框架。 最后,我们总结了在诸如生成模型,近似推理和监督学习等任务中使用归一化流提供了一种定义表达概率分布的通用机制,只需要指定(通常是简单的)基本分布和一系列双射变换。 最近有许多关于标准化流的工作,从提高其表达能力到扩展其应用。 我们认为该领域已经成熟,需要一个统一的观点。 在这篇综述中,我们试图通过概率建模和推理的视角描述流量来提供这样的观点。 我们特别强调流程设计的基本原理,并讨论诸如表达能力和计算权衡等基本主题。 通过将流量与更一般的概率转换相关联,我们还扩大了流量的概念框架。 最后,我们总结了在诸如生成模型,近似推理和监督学习等任务中使用流。

6、题目: Fantastic Generalization Measures and Where to Find Them

简介: 近年来,深度网络的普遍性引起了人们极大的兴趣,从而产生了许多从理论和经验出发推动复杂性的措施。 但是,大多数提出此类措施的论文只研究了一小部分模型,而这些实验得出的结论在其他情况下是否仍然有效的问题尚待解决。 我们提出了深度网络泛化的第一个大规模研究。 我们研究了从理论界和实证研究中采取的40多种复杂性度量。 通过系统地改变常用的超参数,我们训练了10,000多个卷积网络。 为了揭示每个度量与泛化之间的潜在因果关系,我们分析了实验,并显示了有希望进行进一步研究的度量。

7、题目: Neural Style Transfer: A Review

简介: Gatys等人的开创性工作通过分离和重新组合图像内容和样式,展示了卷积神经网络(CNN)在创建艺术图像中的作用。使用CNN渲染不同样式的内容图像的过程称为神经样式传输(NST)。从那时起,NST成为学术文献和工业应用中的一个热门话题。它正受到越来越多的关注,并且提出了多种方法来改进或扩展原始的NST算法。在本文中,我们旨在全面概述NST的最新进展。我们首先提出一种NST领域中当前算法的分类法。然后,我们提出几种评估方法,并定性和定量地比较不同的NST算法。审查结束时讨论了NST的各种应用和未解决的问题,以供将来研究。

成为VIP会员查看完整内容
0
53
小贴士
相关论文
Evaluating Multimodal Representations on Visual Semantic Textual Similarity
Oier Lopez de Lacalle,Ander Salaberria,Aitor Soroa,Gorka Azkune,Eneko Agirre
5+阅读 · 4月4日
A Collective Learning Framework to Boost GNN Expressiveness
Mengyue Hang,Jennifer Neville,Bruno Ribeiro
15+阅读 · 3月26日
Shuo Zhang,Krisztian Balog
5+阅读 · 2月5日
Shaoxiong Ji,Shirui Pan,Erik Cambria,Pekka Marttinen,Philip S. Yu
57+阅读 · 2月2日
Fang Liu,Guoming Tang,Youhuizi Li,Zhiping Cai,Xingzhou Zhang,Tongqing Zhou
11+阅读 · 2019年11月7日
Liang Yao,Chengsheng Mao,Yuan Luo
4+阅读 · 2019年9月11日
Zhenxin Wang,Sayan Sarcar,Jingxin Liu,Yilin Zheng,Xiangshi Ren
9+阅读 · 2018年4月20日
Junliang Guo,Linli Xu,Xunpeng Huang,Enhong Chen
3+阅读 · 2018年3月5日
Huan Zhao,Quanming Yao,Yangqiu Song,James Kwok,Dik Lun Lee
10+阅读 · 2018年1月8日
Danish Contractor,Barun Patra,Mausam Singla,Parag Singla
13+阅读 · 2018年1月5日
Top