[读论文] 从一点到流形:用于准确链接预测的知识图谱嵌入

2020 年 8 月 24 日 AINLP
  • 原论文:From One Point to a Manifold: Knowledge Graph Embedding for Precise Link Prediction

  • 出版:IJCAI 2016

  • 作者单位:清华大学计算机系


摘要

知识图嵌入旨在通过将实体和关系转换为连续的向量空间来提供数值知识表示范例。但是,现有的方法不能很好地表征知识图以进行精确的链接预测。

这个问题有两个原因:是一个不适定的代数系统,并且采用了一种过分的几何形式。由于精确的链接预测对于知识图的嵌入至关重要,因此我们提出了一种基于流形的嵌入原理(ManifoldE),该原理可以被看作是一个适定的代数系统,可以将当前模型中的点向模型扩展为流形。

广泛的实验表明,所提出的模型相对于最新的基线,尤其是对于精确的预测任务,取得了实质性的改进,并且保持了较高的效率。

1 介绍

知识对人工智能至关重要,而知识的嵌入式表示形式为符号知识事实的计算提供了有效的基础。更具体地说,知识图通过优化定义明确的目标函数将实体和关系投影到连续的高维向量空间中。已经针对该任务提出了多种方法,包括 TransE、PTransE 和 KG2E 等。

即使在此之前的方法取得了成功,之前的方法没有关注于精准链接预测这一问题,它在给定实体和关系的基础上精确地查找对应的实体。对于特定的查询事实,大多数现有方法会提取一些可能包含正确答案的候选实体,但是没有机制可以确保正确答案位于候选列表的前面。

一般而言,精确的链接预测将提高知识完成的可行性,知识推理的有效性以及许多与知识相关的任务的执行。以知识完成为例,当我们想知道 Martin R.R. 的出生地时,我们期望的确切答案是“美国”,而其他一些候选答案则毫无意义。

精准链接预测的问题由两个问题导致:不适定的代数系统和严格的几何形式。



在该文中,作者提出通过将平移准则替换为基于流形的准则来解决这一问题。

第二,从几何角度,现有方法中真实事实的位置几乎是一个点,这对于所有关系都太严格了,而对于例如多对多的复杂关系则不够。例如,对于实体美国独立战争,存在许多三元组,例如(美国独立战争,有一部分,邦克山之战),(美国独立战争,有一部分,考彭斯之战)。当许多尾部实体仅争夺一个点时,目标函数将有大的损失。TransH [Wang等,2014]和TransR [Lin等,2015b]等先前的工作通过将实体和关系投影到某些特定于关系的子空间中来解决此问题。但是,在每个子空间中,真实位置也是一个点,并且仍然存在超限几何形式。从图 1 可以看出,基于平移的几何原理涉及太多的噪声。但是,ManifoldE通过将真实三元组的位置从一个点扩展到一个流形(例如高维球体)来缓解此问题。通过这种方式,ManifoldE 避免了太多的噪声来区分真实事实和最可能的错误事实,并提高了知识嵌入的精度,如图 1 所示。



图1:TransE和ManifoldE(Sphere)的可视化比较。对于ManifoldE,流形通过减小尺寸而折叠为实心圆。数据是从Wordnet和Freebase中选择的。蓝色叉表示正确匹配的实体,而红色叉表示未匹配的实体。上面的块对应于TransE,在其中,更靠近中心,三元组更合理。显然,真实位置附近的真假三元组是混沌分布的。下面的块是ManifoldE(Sphere),其中实心圆内的三元组匹配,而外面的三元组不匹配。我们可以看到,ManifoldE中的错误比TransE相对少。

总而言之,贡献有两个方面:(1)解决了精确链接预测的问题,并揭示了两个原因:不适定的代数系统和超限的几何形式。据我们所知,这是第一次正式解决此问题。(2)提出了一种基于流形的原理来缓解此问题,并设计了一个新模型ManifoldE,该模型在实验中,特别是在精确链接预测方面,相对于最新的基线有了显着改进。此外,该方法也非常有效。

3 方法

在本节中,介绍新颖的基于流形的原理,然后从代数和几何角度分析这些方法。

ManifoldE: 一个基于流形的模型

当给出头实体和关系时,尾实体位于高维流形中。直观地,该得分函数是通过测量三元组距离流形的距离来设计的:



 球体是非常典型的流形。在这种情况下,特定事实的所有尾部(或头部)实体都应位于一个高维球体中,其中 h + r 为中心,Dr 为半径。



显然,这是基于平移的模型的直接扩展,其中 Dr 为零。从几何角度来看,应用基于平移的原理时,流体会崩溃为一个点。

再生核希尔伯特空间(RKHS)通常提供一种更具表现力的方法来表示流形,这促使我们将基于流形的原理应用于核。至此,涉及核将球体放置在希尔伯特空间(隐式高维空间)中,如下所示:



如果使用线性核,以上函数将退化为原始的球流形。

如图 2 所示,我们可以看到,当两个流形不相交时,嵌入可能会有所损失。两个球体仅在某些严格条件下相交,而如果两个超平面的法向矢量不平行,则它们将相交。受这一事实的激励,作者应用超平面来增强模型,如下所示:



训练



4 实验





5 结论

在本文中,作者研究了精确的链接预测问题,并揭示了导致该问题的两个原因:不适定的代数系统和过度限制的几何形式。

为了缓解这些问题,作者提出了一种新颖的基于流形的原理以及受该原理启发的相应的 ManifoldE 模型(球体 / 超平面)。从代数的角度看,ManifoldE是一个状态良好的方程组,从几何的角度看,它把基于平移原理的点式建模扩展为流形建模。大量实验表明,相对于最新基准,该方法取得了实质性改进。


  
  
    
欢迎加入知识图谱交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注知识图谱

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
4

相关内容

最新《图神经网络知识图谱补全》综述论文
专知会员服务
153+阅读 · 2020年7月29日
【ICLR2020-Facebook AI】张量分解的时序知识图谱补全
专知会员服务
58+阅读 · 2020年4月14日
ACL 2020 | 用于链接预测的开放知识图谱嵌入
PaperWeekly
6+阅读 · 2020年6月26日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
知识图谱嵌入(KGE):方法和应用的综述
专知
54+阅读 · 2019年8月25日
论文浅尝 | 用于知识图中链接预测的嵌入方法 SimplE
开放知识图谱
22+阅读 · 2019年4月3日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Arxiv
22+阅读 · 2018年8月3日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
Top
微信扫码咨询专知VIP会员