博文链接:https://medium.com/@mgalkin/knowledge-graphs-in-natural-language-processing-acl-2020-ebb1f0a6e0b1#ce67

这篇文章是为了纪念这个系列的一周年,在这个系列中,我们研究了由知识图谱驱动的NLP和图形ML的进步! 观众的反馈促使我继续说下去,所以请系紧安全带(或许也可以系上一些),在这一集中,我们来看看与知识图谱(KG)相关的ACL 2020进程。 今天的议程如下:

  • 结构化数据的问答

  • KG嵌入:双曲空间和超关系

  • 数据到文本NLG:准备你的Transformer

  • 对话式AI:改进面向目标的机器人

  • 信息提取:OpenIE和链接预测

  • 结论

KG嵌入:双曲空间和超关系

双曲空间是ML中最近的热门话题之一。用更简单的术语来说,在双曲空间中(得益于其属性),你可以使用更少的维数有效地表示层次结构和树状结构。

基于这个动机,Chami等人提出了AttH,一种双曲线的KG嵌入算法,在KG中利用使用旋转、反射和转换对逻辑和层次模式进行建模。Att来自于应用于旋转和反射矢量的双曲注意。绕过不稳定的黎曼优化的诀窍是使用正切空间,d维的庞加莱球的每个点都可以映射到正切空间。在这个明显不平凡的设置中,每个关系不仅与一个向量相关,而且与描述特定关系的反射和旋转的参数相关。然而,在现实生活中,KGs中R << V,所以开销不是很大。 在实验中,AttH在具有一定层次结构的WN18RR和Yago3和Yago10上表现优越,在FB15k-237上的差距较小。更重要的是,仅32维的AttH就显示了巨大的优势,相比于真实和复杂平面的32维模型。此外,WN18RR和FB15k-237的32维在评价标准MRR评分上仅比SOTA 500维的嵌入模型分别小0.02和0.03。消融研究证明了可学习的曲率的重要性,而其优于最接近的匹配模型MurP。

图表示学习的另一个趋势是超越简单的KG组成的三元组和学习表示对于更复杂,超关系KG,当每一个三元组可能有一组键-值对属性,提供细粒度细节三在各种情况下的有效性。事实上,Wikidata在其Wikidata语句模型中采用了超关系模型,其中属性被称为限定符。重要的是不要将模型与n元事实(生成冗余谓词)和超图混合在一起。也就是说,如果你只在三元组层面上与Wikidata一起工作,你就会失去一大半的内容。 Guan等人不想失去Wikidata的一半,他们提出了NeuInfer,一种学习超关系KGs嵌入的方法(他们之前的工作,NaLP,更适合n元事实)。

NeuInfer的思想是计算一个超关系事实(见图)的有效性和兼容性评分。首先,(h,r,t)嵌入输入到一个全连接的网络(FCN)来估计这个三元组(有效性)的合理的概率。其次,为每个键值对构造一个五组(h,r,t,k,v),并通过另一组FCNs传递。有m对,m个向量经过最小池化,得到表示相容度评分的结果,即这些限定符在主要三元组中的表现如何。最后,用两个分数的加权和得到最终评分。 作者在标准基准JF17K(提取自Freebase)和WikiPeople(来自Wikidata)上评估了NeuInfer,并报告说JF17K在预测头实体、尾实体和属性值方面比NaLP有显著的改进。我鼓励作者将他们的数字与HINGE(来自Rosso等人)进行比较,因为这两种方法在概念上是相似的。 现在我们需要谈谈顶级会议上发布的KG嵌入算法的复现性,比如ACL 2019,Sun, Vashishth, Sanyal等人发现,报告SOTA结果(明显优于现有基线)的几个最近的KGE模型受到测试集泄漏的影响,或在ReLU激活有效三元组得分后出现许多异常零化的神经元。此外,他们还表明,他们的性能度量标准(如Hits@K和MRR)取决于在有效三元组负采样(实际上,这是不应该发生的)中的位置。另一方面,现有的强基线在任何位置的表现都是一样的。我们要做的就是使用评估原则,将一个有效的三元组随机放置在负样本的位置上。

我们的团队对这个问题也有话要说:在我们的新论文《让黑暗变得光明》(bring Light Into the Dark)中:大规模评估知识图谱嵌入模型的一个统一的框架下我们执行65 k +实验和k + GPU 21小时评估19模型从RESCAL首先发表在2011年RESCAL到2019年末 RotatE 和TuckER,,5种损失函数,各种训练策略有/没有负采用,和更多重要考虑的超参数。我们还将为您和我们热爱的社区发布为所有模型找到的最佳超参数。此外,我们正在发布PyKEEN 1.0,这是一个PyTorch库,用于训练和基准测试KG嵌入式模型! 我鼓励你仔细阅读其他一些作品:Sachan研究了通过离散化压缩KG实体嵌入的问题,例如,Barack Obama将被编码为“2 1 3 3”,而不是200维的32位的浮点向量,Michelle Obama将被编码为“2 1 3 2”。

也就是说,你只需要一个有K个值的D维长向量(这里D=4, K=3)。对于离散化,Softmax被发现性能更好。并且作为一个从KD代码返回到n维浮点数向量的反向函数,作者建议使用一个简单的Bi-LSTM。实验结果显示,FB15k-237和WN18RR的压缩率达到了100-1000倍,但在推理时(当需要解码KD代码时)的性能下降和计算开销可以忽略不计(最大MRR为2%)。 我建议大家坐下来,重新考虑一下KGE的pipelines(特别是在生产场景中)。例如,通过PyTorch-BigGraph获得的78M Wikidata实体的200维嵌入需要110 GB的空间。想象一下压缩100倍会有什么可能? 还有一系列的工作改进了流行的KGE模型:

  • Tang等人用正交关系变换将二维旋转推广到高维空间,这种正交关系变换对1-N和N-N关系更有效。
  • Xu等人通过对K个部分的稠密向量进行分块,将双线性模型推广为多线性模型。结果表明,当K=1时,该方法等于DistMult,当K=2时,该方法简化为 ComplEx 和 HolE,并在K=4和K=8时进行了实验。
  • Xie等人对ConvE进行了扩展,将标准的卷积滤波器替换为计算机视觉领域中最著名的Inception网络。
  • Nguyen等人应用了一个自注意风格的编码器和一个CNN解码器的三元组分类和个性化搜索任务。

结论

在今年的ACL2020中,我们看到了更少的KG增强的语言模型(但是可以看看TaPas和TABERT,它们被设计用于在 tables上工作),NER可能也少了一些。另一方面,图形到文本的NLG正在上升!

成为VIP会员查看完整内容
0
42

相关内容

主题: Low-Dimensional Hyperbolic Knowledge Graph Embeddings

摘要: 知识图谱(KG)嵌入学习实体和关系的低维表示,以预测缺失的内容。 KG通常表现出必须保留在嵌入空间中的分层和逻辑模式。对于分层数据,双曲线嵌入方法已显示出对高保真和简约表示的希望。但是,现有的双曲线嵌入方法无法解决KG中的丰富逻辑模式。在这项工作中,我们介绍了一类双曲KG嵌入模型,该模型同时捕获层次结构和逻辑模式。我们的方法将双曲线反射和旋转结合在一起,以注意对复杂的关系模式进行建模。在标准KG基准上的实验结果表明,我们的方法在较低维度上的平均倒数排名(MRR)比以前的基于欧几里德和双曲线的方法提高了6.1%。此外,我们观察到,不同的几何变换捕获不同类型的关系,而基于注意力的变换则泛化为多个关系。在高维度上,我们的方法在WN18RR上产生了49.6%的最新技术水平,在YAGO3-10上产生了57.7%的最新技术水平。

成为VIP会员查看完整内容
0
9

题目: Low-Dimensional Hyperbolic Knowledge Graph Embeddings

摘要: 知识图谱(KG)嵌入通过学习实体和关系的低维表示,以预测缺失事实。KGs通常具有层次结构和逻辑模式,必须在嵌入空间中保留这些模式。对于分层数据,双曲嵌入方法已显示出高保真度和简洁表示的优势。然而,现有的双曲嵌入方法不能解释KGs中丰富的逻辑模式。在本工作中,我们引入了一类双曲KG嵌入模型,可以同时捕获层次和逻辑模式。我们的方法结合双曲反射和旋转注意力模型复杂的关系模式。在标准KG基准上的实验结果表明,我们的方法在低维的平均倒数(MRR)方面比预先的欧几里得和双曲的工作提高了6.1%。此外,我们观察到不同的几何变换捕捉不同类型的关系,而基于注意的变换则推广到多重关系。在高维情况下,我们的方法在WN18RR和YAGO3-10上分别获得了49.6%和57.7%的最先进的MRR。

成为VIP会员查看完整内容
0
25

题目: KG-BERT: BERT for Knowledge Graph Completion

摘要: 知识图谱是许多人工智能任务的重要资源,但往往是不完整的。在这项工作中,我们使用预训练的语言模型来对知识图谱进行补全。我们将知识图谱中的三元组视为文本序列,并提出了一种新的框架结构——知识图谱双向编码方向转换器(KG-BERT)来对这些三元组进行建模。该方法以一个三元组的实体描述和关系描述作为输入,利用KG-BERT语言模型计算三元组的评分函数。在多个基准知识图谱上的实验结果表明,我们的方法在三元组分类、链接预测和关系预测任务上都能达到最新的性能。

成为VIP会员查看完整内容
0
42

题目: Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

摘要: 知识图谱(KGs)嵌入的是一个强大的工具,能够预测KGs缺失的链接。现有的技术通常将KG表示一个三元组集合,每个三元组(h, r, t)通过关系r将两个实体h和t联系起来,并从这样的三元组中学习实体/关系嵌入,同时保留这样的结构。然而,这种三元组的表示过分简化了存储在KG中的数据的复杂性,尤其是超关系的事实,其中每个事实不仅包含基本三元组(h r t),还有相关的键-值对(k、v)。尽管最近有一些技术试图通过将超关系事实转换为n元表示来学习这些数据(即一组没有三元组组的键值对)。由于它们不知道三元组结构,导致了次优模型,三元组结构是现代KGs的基本数据结构,保留了链接预测的基本信息。为了解决这个问题,我们提出了HINGE,一个超相关KG嵌入模型,它直接从KG学习超相关事实。HINGE不仅捕获了在三元组中编码的KG的主要结构信息,而且还捕获了每个三元组及其相关键-值对之间的相关性。我们在KG预测任务大量的实验显示了优越性。特别是,HINGE不仅始终优于仅从三元组学习的KG嵌入方法,而且始终优于使用n元表示从超关系事实学习的方法。

成为VIP会员查看完整内容
0
17

题目: Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings 在大规模的不完全知识图谱(KGs)上回答复杂的逻辑查询是一项基本而又具有挑战性的任务。最近,解决这个问题的一个很有前景的方法是将KG实体和查询嵌入到向量空间中,这样回答查询的实体就会被嵌入到查询附近。然而,以前的工作将查询建模为向量空间中的单点,这是有问题的,因为一个复杂的查询表示一个可能很大的答案实体集合,但是不清楚如何将这样的集合表示为单点。此外,以前的工作只能处理使用连词和存在量词的查询。使用逻辑分隔处理查询仍然是一个有待解决的问题。在这里,我们提出Query2box,这是一个基于嵌入的框架,用于在大量且不完整的KG中使用、和操作符对任意查询进行推理。,其中框内的一组点对应于查询的一组回答实体。我们证明了连词可以自然地表示为盒子的交叉点,同时也证明了一个否定的结果,即处理拆分需要嵌入的维度与KG实体的数量成比例。但是,通过将查询转换为析取范式,Query2box能够以一种可伸缩的方式处理带有、的任意逻辑查询。我们演示了query2box在两个大型KGs上的有效性,并表明Query2box实现了比现有技术高25%的改进。

成为VIP会员查看完整内容
0
13

知识图谱(KG)嵌入通过学习实体和关系的低维表示来预测缺失的事实。KGs通常表现出层次结构和逻辑模式,必须在嵌入空间中保留这些模式。对于层次数据,双曲线嵌入方法已经显示出高保真和精简表示的前景。然而,现有的双曲线嵌入方法并不能解释KGs中丰富的逻辑模式。在本文中,我们介绍了一类双曲线KG嵌入模型,该模型同时捕获层次模式和逻辑模式。我们的方法结合了双曲线反射和旋转,并注意到模型的复杂关系模式。在标准KG基准上的实验结果表明,我们的方法在低维平均倒数秩(MRR)方面比以前的基于欧几里德和双曲线的方法提高了6.1%。此外,我们观察到不同的几何变换捕获不同类型的关系,而基于注意的变换泛化为多个关系。在高维情况下,我们的方法可以得到最新的MRRs, WN18RR为49.6%,YAGO3-10为57.7%。

成为VIP会员查看完整内容
0
28

简介: 今年AAAI 2020接收了1591篇论文,其中有140篇是与图相关的。接下来将会介绍几篇与图和知识图谱相关的几篇论文。以下为内容大纲:

  • KG-Augmented Language Models In Diherent Flavours

Hayashi等人在知识图上建立了自然语言生成(NLG)任务的潜在关系语言模型(LRLM)。就是说,模型在每个时间步上要么从词汇表中提取一个单词,要么求助于已知关系。 最终的任务是在给定主题实体的情况下生成连贯且正确的文本。 LRLM利用基础图上的KG嵌入来获取实体和关系表示,以及用于嵌入表面形式的Fasttext。 最后,要参数化流程,需要一个序列模型。作者尝试使用LSTM和Transformer-XL来评估与使用Wikidata批注的Freebase和WikiText链接的WikiFacts上的LRLM。

Liu等人提出了K-BERT,它希望每个句子(如果可能)都用来自某些KG的命名实体和相关(谓词,宾语)对进行注释。 然后,将丰富的句子树线性化为一个新的位置相似嵌入,并用可见性矩阵进行遮罩,该矩阵控制输入的哪些部分在训练过程中可以看到并得到关注。

Bouraoui等人进一步评估了BERT的关系知识,即在给定一对实体(例如,巴黎,法国)的情况下,它是否可以预测正确的关系。 作者指出,BERT在事实和常识性任务中通常是好的,而不是糟糕的非词性任务,并且在形态任务中相当出色。

  • Entity Matching in Heterogeneous KGs

不同的KG具有自己的模型来建模其实体,以前,基于本体的对齐工具仅依靠此类映射来标识相似实体。 今天,我们有GNN只需少量培训即可自动学习此类映射!

Sun等人提出了AliNet,这是一种基于端到端GNN的体系结构,能够对多跳邻域进行聚合以实现实体对齐。 由于架构异质性,由于相似的实体KG的邻域不是同构的,因此任务变得更加复杂。 为了弥补这一点,作者建议关注节点的n跳环境以及具有特定损失函数的TransE样式关系模式。

Xu等人研究了多语言KG(在这种情况下为DBpedia)中的对齐问题,其中基于GNN的方法可能陷入“多对一”的情况,并为给定的目标实体生成多个候选源实体。 作者研究了如何使他们的预测中的GNN编码输出更加确定。

  • Knowledge Graph Completion and Link Prediction

AAAI’20标记并概述了两个增长趋势:神经符号计算与临时性的KG越来越受到关注。

  • KG-based Conversational AI andQuestion Answering

AAAI’20主持了“对话状态跟踪研讨会”(DSTC8)。 该活动聚集了对话AI方面的专家,包括来自Google Assistant,Amazon Alexa和DeepPavlov的人员。在研讨会上,多个专家都提出了对话AI的相关研究方法。

成为VIP会员查看完整内容
Knowledge Graphs @ AAAI 2020 - Michael Galkin - Medium.pdf
0
64

【导读】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 在美国纽约举办。Michael Galkin撰写了AAAI2020知识图谱论文相关研究趋势包括:KG-Augmented语言模型,异构KGs中的实体匹配,KG完成和链路预测,基于kg的会话人工智能和问题回答,包括论文,值得查看!

Hiroaki Hayashi, Zecong Hu, Chenyan Xiong, Graham Neubig: Latent Relation Language Models. AAAI 2020

  • 潜在关系语言模型:本文提出了一种潜在关系语言模型(LRLMs),这是一类通过知识图谱关系对文档中词语的联合分布及其所包含的实体进行参数化的语言模型。该模型具有许多吸引人的特性:它不仅提高了语言建模性能,而且能够通过关系标注给定文本的实体跨度的后验概率。实验证明了基于单词的基线语言模型和先前合并知识图谱信息的方法的经验改进。定性分析进一步证明了该模型的学习能力,以预测适当的关系在上下文中。

成为VIP会员查看完整内容
0
80

题目: Embedding Symbolic Knowledge into Deep Networks

摘要:

在这项工作中,我们的目标是利用先前的符号知识来提高深层模型的性能。提出了一种利用增广图卷积网络(GCN)将命题公式(和赋值)投影到流形上的图嵌入网络。为了生成语义上可靠的嵌入,我们开发了识别节点异构性的技术和将结构约束合并到嵌入中的语义正则化。实验结果表明,该方法提高了训练后的模型的性能,使其能更好地进行蕴涵检测和视觉关联预测。有趣的是,我们观察到命题理论表达的可追踪性和嵌入的容易程度之间的联系。对这一联系的进一步探索可以阐明知识编辑与向量表示学习之间的关系。

作者:

Ziwei Xu是新加坡国立大学博士研究生。之前是中国科学技术大学的一名本科生,对计算机视觉感兴趣,尤其对搭建自然语言、人类知识和视觉世界之间的桥梁感兴趣。

成为VIP会员查看完整内容
0
18
小贴士
相关VIP内容
专知会员服务
80+阅读 · 2月13日
相关资讯
【清华大学】元知识图谱推理
专知
61+阅读 · 2019年9月2日
知识图谱嵌入(KGE):方法和应用的综述
专知
33+阅读 · 2019年8月25日
论文浅尝 | Open world Knowledge Graph Completion
开放知识图谱
4+阅读 · 2018年1月30日
【知识图谱】知识图谱从0级到10级简化版
产业智能官
6+阅读 · 2017年12月4日
鲍捷 | 知识图谱从 0 级到 10 级简化版
开放知识图谱
3+阅读 · 2017年12月1日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
13+阅读 · 2017年9月23日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
9+阅读 · 2015年8月3日
相关论文
Chuxu Zhang,Huaxiu Yao,Chao Huang,Meng Jiang,Zhenhui Li,Nitesh V. Chawla
4+阅读 · 2019年11月26日
Liang Yao,Chengsheng Mao,Yuan Luo
4+阅读 · 2019年9月11日
Canran Xu,Ruijiang Li
7+阅读 · 2019年6月3日
Koki Kishimoto,Katsuhiko Hayashi,Genki Akai,Masashi Shimbo,Kazunori Komatani
3+阅读 · 2019年2月8日
Chung-Wei Lee,Wei Fang,Chih-Kuan Yeh,Yu-Chiang Frank Wang
7+阅读 · 2018年5月26日
Liwei Cai,William Yang Wang
6+阅读 · 2018年4月16日
Wenhu Chen,Wenhan Xiong,Xifeng Yan,William Wang
14+阅读 · 2018年4月5日
Tommaso Soru,Stefano Ruberto,Diego Moussallem,Edgard Marx,Diego Esteves,Axel-Cyrille Ngonga Ngomo
7+阅读 · 2018年3月21日
K M Annervaz,Somnath Basu Roy Chowdhury,Ambedkar Dukkipati
10+阅读 · 2018年2月16日
Seyed Mehran Kazemi,David Poole
7+阅读 · 2018年2月13日
Top