【知识图谱】肖仰华 | 基于知识图谱的用户理解

2017 年 10 月 6 日 产业智能官 知识工场

本文转载自公众号知识工场。

本文整理自肖仰华教授在三星电子中国研究院做的报告，题目为《Understanding users with knowldge graphs》。

今天，很高兴有这个机会来这里与大家交流。

前面两位老师把基于社会影响力的传播和推荐，以及跨领域的推荐讲解的深入细致，我想大家可能也会体会到，我们目前的很多方法和手段越来越接近一个所谓的“天花板”。现有的方法，包括机器学习和深度学习的方法，某种程度上都是在吃大数据的红利，机器学习的效果，模型的效果本质上是由大数据来喂养，我们灌进去的数据越多，模型的效果就越好，尤其是深度学习，随着它的层次结构越来越深以后，它对样本数据的规模和质量的要求也会更高，那么当我们把大数据的红利吃完之后，我们该怎么办呢？

事实上，学术界和工业界在这里年越来越多的意识到这个问题的严重性，就是当我们把大数据红利吃完之后，我们的模型效果应该如何进一步的提升？

对于这个问题，从我这个研究方向给出的答案是什么呢？就是知识。知识的重要性将会越来越突出，我相信很多模型，推荐模型，机器学习算法都将会从数据驱动走向知识引导，越来越多的模型和算法将从基于行为的模型走向基于语义的模型。

今天，我会更多的谈论如何摆脱行为数据的影响来做用户画像和推荐。因为很多场景下是没有行为数据的，在一些极端的情况下，根本没有用户信息，那么这个时候我们怎么推荐？再比如说在互联网搜索用户画像，高频用户和VIP用户都可以解决的很好，那是因为它数据量足够，但是关键的问题是，很多长尾用户压根没有什么数据，那这个时候我们的模型怎么办？这时候我们就要借鉴语义和背景知识来给我们力量。这也是为什么我想跟大家分享利用知识图谱来理解用户，给用户画像，来解决推荐的问题的原因。

为什么要做用户画像？因为企业要了解他们的用户，像三星这么大的一个企业，有着宽广的产品线，有着来自全世界的用户，企业希望产品服务是个性化的，那么这个个性化的前提就是用户画像。

在整个互联网时代其实催生了很多基于用户画像的应用。比如搜索，百度搜索是通用搜索，因不同的人而展现不同的结果。再比如推荐，不同的人看到不同的推荐结果。广告投放，社交网络分析，甚至在企业内部找专家等等，都需要去理解用户，那么就需要一个非常有效的用户画像。

那么在各种各样的画像当中，最流行的一种方法是基于标签的。在很多实际应用中，大家都在广泛的应用这一类基于标签的画像方法。基于画像的标签方法其实很简单，就是给用户打一组标签，每个标签给一个权重，权重代表了用户在这个方面兴趣的强烈程度，如图我们给出了一个豆瓣用户的标签云，也给出了一个微博用户的标签云。不同平台的语言风格，语言体系是不完全一样的，豆瓣的语言倾向于书面化，而微博的语言倾向于碎片化，口语化。

时至今日，我们已经有很多方法来帮助解决画像和推荐的问题，那为什么今天还要来谈论这个话题呢？是因为这些方法里面还存在一些问题，问题集中在两个方面。

第一个方面就是用户画像某种程度上还是不完整的。导致这个问题可能有两个原因，第一个原因就是任何画像的来源数据都是有一定偏差的，一般描述的都是用户画像的某一方面，很难有一个非常完整的画像。还有一个非常重要的原因就是隐私，后面我们会有case study，大家就会发现在微博上其实还是有很多人不愿谈及自己的，比如说宗教信仰，政治观念等等，但是很多时候可能了解用户不愿谈及的这个方面的内容对于我们做产品，做服务又是非常重要的。基于这两个原因，我们对用户的理解就是一个碎片式的，很难召回完整的目标客户。

用户画像第二个关键的问题就是不正确性，也就是说我们对用户画像的理解很多时候是错误的，这导致就会出现错误的推荐。导致不正确性的原因有很多，第一个就是机器还无法理解这些标签，也就无法做出精准推荐。第二个原因就是在跨领域场景下，由于缺失用户的商品，也就是缺失推荐对象之间的历史交互信息，使得冷启动变成一个非常突出的问题，没有历史信息，一切基于这个的推荐就会失效。这个时候我们可能会采取一些基于语义的办法，但是基于语义的办法前提是要有精准的语义匹配，这就需要一个庞大精准的知识库来作为背景知识来支持。第三个原因就是没有针对推荐给出解释。这个是非常重要的，当且仅当你给出一个非常合理的解释的时候，用户才会很好的接受推荐。那如何给出解释呢？以前，解释在人脑里面，现在我们可以利用大规模知识库来产生解释，从而实现能够给出带解释的推荐给用户。

我们如何利用知识图谱，把它作为background knowledge来理解用户标签，进而理解标签背后的用户呢？

理解用户是我们的终极目标，但是我们要先理解由于用户的行为而产生的标签，这就非常难了，为什么呢？标签可以认为是自然语言的一部分，是一个简单形式，比如可以给我打标签，“IT教师”、“复旦大学”，“知识图谱”，那机器如何理解这些标签呢？目前机器还不能有效的准确的理解人类的自然语言，因为我们的自然语言很多时候是有歧义的，需要通过上下文才能理解的。很多时候语言的表达式是隐含的，比如我们中国人说两个人是爱人关系的时候，不会直接说他们俩是伴侣关系，而会说他们共进晚餐或者看电影之类的，很少直接去谈及这块，所以很多关系是隐含的。语言还有一个重要的难点，就是它的多样性，同一个意思，可以有很多种说法。

那么再进一步分析为什么语言理解这么困难？从根本上来讲，是因为语言理解是建立在人对世界认知的基础之上。你为什么能够理解语言？是因为你已经对这个世界，对在你身边发生的事情有了充分的认知。机器现在还达不到认知世界的能力，机器的大脑里还缺乏非常重要的背景知识，比如这里有几个卡通人物，大家一看就理解了，那是因为你已经有这个背景知识在背后，那么机器想要理解语言，理解标签，就需要有海量的背景知识去支撑它认知这些概念。

机器需要怎样的背景知识呢？第一个是要有足够大的规模，必须覆盖足够多的实体，足够多的概念。第二个是语义要足够丰富，当说到各种各样的关系的时候，机器必须都能够理解。第三个就是质量足够精良。第四个就是结构必须足够友好。

大家都知道机器最喜欢的是有结构的数据，最怕的是纯文本，无结构的数据，我们希望知识库是以一种机器友好的结构形式来组织的。也有人发出疑问，知识图谱跟传统的本体语义网有什么差别呢？先来说本体，以前在特定领域尤其是医疗领域积累了大量的本体，但是大部分都是人工构建的，规模十分有限，而且当要把传统知识工程从一个领域转移到另一个领域的时候，就会发现代价极大，因为人工构建的成本极为高昂。再来看看以前的语义网络，它往往是集中在单一的语义关系上，而不像知识图谱，涵盖了上千数万种语义关系。再比如说文本，文本结构不友好。这么一看大家就知道传统的知识表示都不行。

这样，知识图谱成为了机器语言认知所需要的知识表示，所谓知识图谱，本质上是一种语义网络，它表达了各种各样实体概念及其之间的语义关系。与之前的知识表示作比较，会发现知识图谱有非常多的优势：第一，它规模巨大，像google的知识图谱现在已经到了几百亿的实体规模。第二，它的语义关系也很丰富，比如说我们自己的CN-DBpedia里涵盖了成千上万种语义关系。第三，知识图谱通常是用RDF来表示的，对于机器来讲，结构足够友好。第四，知识图谱是通过大数据众包的手段来校验它的质量，也就是靠人来校验质量，所以有着比较好的质量。

所以利用知识图谱来帮助机器理解标签，最终理解用户是有可能的。

怎样利用知识图谱来解决刚才提到的不完整和不正确的两个问题呢？

我们利用知识图谱来做标签扩展，标签推断，来提高机器对标签的理解水平，实现基于标签的，基于知识图谱的精准推荐。

我们把social graph当做一个knowledge graph，只不过social graph是人与人之间的关系，而knowledge graph是更为一般的语义关系，所以某种程度上可以认为social graph是knowledge graph的一个typical case。

出于隐私的考虑，很多用户不愿意给自己打标签，那怎么办呢？我们可以利用social network上的一些关系来推断一些不具备标签或者具备很少标签的用户的一些标签。

如果用户的大部分朋友都有这个标签，那么我觉得用户也可以拥有这个标签。如果用户与朋友关系非常紧密，那么朋友的标签传播过来的可能性就更大。

我们就是基于这两条准则来进行标签传播的。

这里有一个实际案例，我们在微博上做实验，结果显示这种传播方法很有效，尤其是在宗教信仰，政治观念，教育等方面的推断准确率能高达95%。

比如在这个user case，基于label propagation这么一个思路，用LTPA算法，user A的real tags是music和fashion，但是通过标签传播，你会发现实际上他是一个基督教徒，因为传播出来很多类似Christian，Bible，faith等等这样的标签，那我们看他的微博发现他确实就是一个基督教徒。

这就是tag propagation，通过传播来找到用户的缺失标签。

关于标签的不正确性，我们做一个tag inference。这里有两个真实的案例，第一个案例就是季建业受审的案子，我们要给这个新闻打合理的标签，这个标签难在什么地方呢？大家都知道季建业是南京市长，在山东烟台受审，结果“烟台”出现的频率显著高于“南京”，但是这个新闻按道理应该是“南京”打的这个标签权重高于“烟台”，那么怎样识别出更准确的标签呢？怎么把“烟台”这个标签弱化，而把“南京”这个标签给强调出来？

第二个例子就是枪决案件，打的标签是“朝鲜”，“崔英建”，“枪决”这三个标签，虽然通篇没有提到平壤，但这件事肯定跟平壤是有关系的。

实际上这样的例子很多，一篇讲姚明的文章，即便通篇没有讲篮球，但肯定跟篮球有关系，打上“篮球”的标签准没错。

我想表达什么意思呢？就是有很多应该打的标签，由于这个事实太显然，以至于文本里没有提，而我们现在所有的办法都基于一个假设，就是文本里提到才能打上标签，那么我们有没有办法推断出这些不存在与文本中的标签呢？

实际上我们用知识图谱是可以做到的。我们建构一个语义网络，利用CN-DBpedia把新闻里提到的候选实体之间的语义关联建立起来。我们的算法怎么实现呢？其实也很简单，我们可以用一些随机游走的办法，可以从新闻中观察到的这个实体去随机游走，看它们能都倾向于走到哪些未被观察到的实体，而这些实体就是很有可能作为标签出现的。实验结果证实这个办法的确能够找到更多人工判断下来的更为准确的标签。

再进一步我们想通过知识图谱让机器准确理解这些标签。

人类是在合适的概念层次来理解标签的。比如说人类看这么一组标签“China，Japan，India，Korea”，很快就会理解，讲的是Asian country。基于概念级别去理解这些标签对于后面做精准推荐是十分重要的。那现在问题来了，我们怎么让机器去理解这些标签？怎么为标签产生一个合适的概念呢？

首先我们用一个knowledge base叫probase，它包含了大量的实体，也可以认为是标签及其概念。比如“apple”，它可以是一个company，也可以是一个fruit，company和fruit都是“apple”的概念。

我们利用probase去产生概念标签的时候，要解决两个问题，第一个问题就是我们希望找到的这个概念的覆盖率高，第二问题就是概念的信息尽可能详细。比如第一个例子“China，Japan，India，Korea”，可以用“Asian country”这个标签，也可以用“country”这个标签，但显然“Asian country”比较好。

我们要处理的最核心的问题就是coverage和minimality这么一对矛盾。我们采用的是一个非常通用的模型，是基于信息论的，也就是Minimal Description Length最小描述长度的方法。

我们把刚才那个概念标签选择问题建模成找一堆概念来encoding我们看到的tag这么一个问题。那么很显然，刚才的两个标准，就可以体现在这里的两个目标里。第一部分，就是我们要用尽可能少的概念去cover这些实例，那么也就是说概念自身的编码代价要尽可能小。第二个利用这种概念去encoding知识图谱的tag的代价尽可能小，也就是基于知识图谱的条件的length尽可能小。就有这么一个优化的问题。当然了，这是一个很general的model。在这个general的model下面，我们还要处理一些很实际的情况。

我们这里很多都是很实际的案例，来自很多实际的data的tag。比如在实际的用户的tag或者image或者document往往会有噪音。比如这个tag里面有很多“apple，banana，breakfast，dinner，pork，beef”，突然出现一个“bullet”，那这个很可能就是个噪音，所以这个模型要能够噪音容忍，这是第一个问题。

第二个问题就是说有很多像“population，president，location”，实际上最好的概念是“country”。但你要注意“country”跟“population，president，location”实际上不是严格的isA关系。population人口，president总统都是“country”的一个属性，而不是isA关系。像刚才“China”和“Asian Country”那是isA关系。但是population只能说是Country的一个attribute。所以我们在建模的时候不仅仅要考虑isA关系，还需要能够应用这里的attribute关系，这是在模型方面的两个改进。

最终的实际效果大家看，非常有意思。我们可以看到，基于MDL的方法是可以非常有效的解释这个标签的。我们人为做了一个实验，把来自三组不同概念的实体混在一起，看看我们的模型能不能找到这三组实体的三个正确的概念标签。图中Table 3第一行就真的找到相应来源的概念。

再看看Table 4，带属性和不带属性是可以产生不一样的概念的。比如“bride，groom，dress，celebration”在带属性的模型中产生的是“wedding”这个概念标签，但是在不带属性的模型中产生的是“tradition”这个概念标签。

我们怎样利用这个知识图谱来做一些精准推荐呢？在推荐中最难的一类是跨领域推荐，不同的领域要不共有user，要不共有item，要不共有feature，可是也有非常情况，比如说给微博用户推荐淘宝商品，当然可以用传统的ontology的办法，但是ontology的覆盖率比较低，所以我们要用知识图谱。

如果一个微博用户经常谈论各种旅游名胜，我们能不能把淘宝上的登山杖，旅游鞋推荐给他呢？要知道旅游名胜和登山杖，旅游鞋的描述是风马牛不相及的，是没有办法直接匹配的，那就需要一些间接匹配的方式，通过什么呢？就是通过背景知识图谱来做一个桥接，也就是CN-DBpedia。

“九寨沟”会在知识图谱在里面，知识图谱里可能有一些相关实体，比如“旅游”，“旅游”和“九寨沟”直接相关，“旅游”与“登山杖”“旅游鞋”也相关，就可以用这种中间实体和概念来桥接两个完全不相关的物品和用户。

实际上我们利用knowledge base构建了很多concept vector来进行描述，分别描述user和item，然后来实现匹配，最终的效果也是相当不错的。

事实证明，在knowledge graph和knowledge base的支持下，的确是可以把两个看上去语言描述完全不一样的东西进行匹配的。

最后我们来聊聊推荐解释。

举个例子，假如说用户在亚马逊上搜索了“iPhone 7”，又搜了“华为 9”，那么亚马逊应该给用户推荐什么呢？如果亚马逊给用户推荐“小米 Note”，那好像就不太对，比较好的就是推荐类似“三星 S7”。为什么用户搜了“iPhone 7”和“华为 9”就要推荐“三星S7”呢？因为它们共有相同的概念，它们可以归到相同的品类，它们都是昂贵的、高端的smart phone 。

那我们能不能根据用户搜索的实体给他推荐其他的商品，并给出解释呢？

这里我们用概念作为解释，比如说，如果我说三个国家，中国，印度，巴西，然后让你再说一个国家，你很有可能就会说俄罗斯，因为它们都是金砖四国，都是新兴市场，都是发展中国家，它们共有很多概念。所以概念是一个非常好的解释。

那么概念哪里来呢？概念又是来自于刚才提到的一个叫probase的知识库。那么为了做这个事情，我们提出好几个model。比如在这个model 2里面，我要推荐一个实体e，那么实体e跟刚才已经观察到的一堆实体q组合到一起之后，应该能够非常好的保持住原来那堆实体的概念分布。我们用概念分布来表示实体的语义，比如说刚才的中国，巴西，印度，他们的概念分布就是发展中国家，新兴市场，金砖四国这样一些概念。概念实际上是实体的一个非常好的语义表示。那我用概念分布来做它的语义表示。那么很显然，我要加进来的这个实体e跟q组合到一起之后，他们的概念分布要尽可能保持住已经观察到的这组实体的概念分布。就有这么一个model，我们需要把它的交叉熵给最小化。这就是我们这个model 2。下面就是求解，那就非常简单了。

那最终的效果也就是很有意思，如果用户先搜索了“阿里巴巴”，“腾讯”，我们的模型就会推荐“百度”，而其他的模型会推荐其他的一些大公司。再如果用户搜索了中国的三大国有银行，我们的模型会推荐第四大国有银行，而其他的模型可能会推荐一些不准确的东西。

以上给大家讲的就是我们基于知识图谱来做推荐的内容。

（以上是肖仰华教授报告的主要内容，以下关于知识工场实验室介绍以及实验室所做工作的内容，这里就不做详细描述。)

获取完整PPT和论文

关注“知识工场”微信公众号，回复“20170926”获取下载链接。

延展阅读：最全知识图谱综述: 概念以及构建技术

来源：机器学习研究会

【导读】知识图谱技术是人工智能技术的组成部分，其强大的语义处理和互联组织能力，为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-专知主题知识树简介。下面我们特别整理了关于知识图谱的技术全面综述，涵盖基本定义与架构、代表性知识图谱库、构建技术、开源库和典型应用。主要基于的参考文献来自[22]和[40], 本人(Quan)做了部分修整。

引言

随着互联网的发展，网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点，给人们有效获取信息和知识提出了挑战。知识图谱（Knowledge Graph) 以其强大的语义处理能力和开放组织能力，为互联网时代的知识化组织和智能应用奠定了基础。最近，大规模知识图谱库的研究和应用在学术界和工业界引起了足够的注意力[1-5]。一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。知识图谱于2012年5月17日由[Google]正式提出[6]，其初衷是为了提高搜索引擎的能力，改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用，知识图谱作为关键技术之一，已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

知识图谱的定义

在维基百科的官方词条中：知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。在具体介绍知识图谱的定义，我们先来看下知识类型的定义：

知识图谱中包含三种节点：

实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物有具体事物组成，此指实体。如图1的“中国”、“美国”、“日本”等。，实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。
语义类（概念）：具有同种特性的实体构成的集合，如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等。
内容: 通常作为实体和语义类的名字、描述、解释等，可以由文本、图像、音视频等来表达。
属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如图1所示的“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值，例如960万平方公里等。
关系: 形式化为一个函数，它把 k 个点映射到一个布尔值。在知识图谱上，关系则是一个把 k 个图节点(实体、语义类、属性值)映射到布尔值的函数。

基于上述定义。基于三元组是知识图谱的一种通用表示方式，即,其中，是知识库中的实体集合，共包含|E|种不同实体；是知识库中的关系集合，共包含|R|种不同关系；代表知识库中的三元组集合。三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识，每个属性-属性值对(attribute-value pair，AVP)可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。如下图1的知识图谱例子所示，中国是一个实体，北京是一个实体，中国-首都-北京是一个（实体-关系-实体）的三元组样例北京是一个实体，人口是一种属性2069.3万是属性值。北京-人口-2069.3万构成一个（实体-属性-属性值）的三元组样例。

图1 知识图谱示例

知识图谱的架构

知识图谱的架构包括自身的逻辑结构以及构建知识图谱所采用的技术（体系）架构。

1）知识图谱的逻辑结构

知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j[7]、Twitter的FlockDB[8]、sones的GraphDB[9]等。模式层构建在数据层之上，是知识图谱的核心，通常采用本体库来管理知识图谱的模式层。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

2）知识图谱的体系架构

图2 知识图谱的技术架构

知识图谱的体系架构是其指构建模式结构，如图2所示。其中虚线框内的部分为知识图谱的构建过程，也包含知识图谱的更新过程。知识图谱构建从最原始的数据（包括结构化、半结构化、非结构化数据）出发，采用一系列自动或者半自动的技术手段，从原始数据库和第三方数据库中提取知识事实，并将其存入知识库的数据层和模式层，这一过程包含：信息抽取、知识表示、知识融合、知识推理四个过程，每一次更新迭代均包含这四个阶段。知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库，例如Freebase项目就是采用这种方式，它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式[10]。目前，大多数知识图谱都采用自底向上的方式进行构建，其中最典型就是Google的Knowledge Vault[11]和微软的Satori知识库。现在也符合互联网数据内容知识产生的特点。

代表性知识图谱库

根据覆盖范围而言，知识图谱也可分为开放域通用知识图谱和垂直行业知识图谱[12]。开放通用知识图谱注重广度，强调融合更多的实体，较垂直行业知识图谱而言，其准确度不够高，并且受概念范围的影响，很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索等领域。行业知识图谱通常需要依靠特定行业的数据来构建，具有特定的行业意义。行业知识图谱中，实体的属性与数据模式往往比较丰富，需要考虑到不同的业务场景与使用人员。下图展示了现在知名度较高的大规模知识库。

图3 代表性知识图谱库概览

知识图谱构建的关键技术

大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术，可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。知识表示则通过一定有效手段对知识要素表示，便于进一步处理使用。然后通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。接下来，本文将以知识抽取、知识表示、知识融合以及知识推理技术为重点，选取代表性的方法，说明其中的相关研究进展和实用技术手段。

1 知识提取

知识抽取主要是面向开放的链接数据，通常典型的输入是自然语言文本或者多媒体内容文档（图像或者视频）等。然后通过自动化或者半自动化的技术抽取出可用的知识单元，知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素，并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。

1.1 实体抽取

实体抽取也称为命名实体学习(named entity learning) 或命名实体识别 (named entity recognition)，指的是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素，其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此，实体抽取是知识抽取中最为基础与关键的一步。参照文献[13]，我们可以将实体抽取的方法分为4种：基于百科站点或垂直站点提取、基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。基于百科站点或垂直站点提取则是一种很常规基本的提取方法；基于规则的方法通常需要为目标实体编写模板，然后在原始语料中进行匹配；基于统计机器学习的方法主要是通过机器学习的方法对原始语料进行训练，然后再利用训练好的模型去识别实体；面向开放域的抽取将是面向海量的Web语料[14]。

1) 基于百科或垂直站点提取

基于百科站点或垂直站点提取这种方法是从百科类站点（如维基百科、百度百科、互动百科等）的标题和链接中提取实体名。这种方法的优点是可以得到开放互联网中最常见的实体名，其缺点是对于中低频的覆盖率低。与一般性通用的网站相比，垂直类站点的实体提取可以获取特定领域的实体。例如从豆瓣各频道(音乐、读书、电影等)获取各种实体列表。这种方法主要是基于爬取技术来实现和获取。基于百科类站点或垂直站点是一种最常规和基本的方法。

2) 基于规则与词典的实体提取方法

早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的，主要采用的是基于规则与词典的方法，例如使用已定义的规则，抽取出文本中的人名、地名、组织机构名、特定时间等实体[15]。文献[16]首次实现了一套能够抽取公司名称的实体抽取系统，其中主要用到了启发式算法与规则模板相结合的方法。然而，基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板，覆盖的领域范围有限，而且很难适应数据变化的新需求。

3) 基于统计机器学习的实体抽取方法

鉴于基于规则与词典实体的局限性，为具更有可扩展性，相关研究人员将机器学习中的监督学习算法用于命名实体的抽取问题上。例如文献[17]利用KNN算法与条件随机场模型，实现了对Twitter文本数据中实体的识别。单纯的监督学习算法在性能上不仅受到训练集合的限制，并且算法的准确率与召回率都不够理想。相关研究者认识到监督学习算法的制约性后，尝试将监督学习算法与规则相互结合，取得了一定的成果。例如文献[18]基于字典，使用最大熵算法在Medline论文摘要的GENIA数据集上进行了实体抽取实验，实验的准确率与召回率都在70%以上。近年来随着深度学习的兴起应用，基于深度学习的命名实体识别得到广泛应用。在文献[19]，介绍了一种基于双向LSTM深度神经网络和条件随机场的识别方法，在测试数据上取得的最好的表现结果。

图4 基于BI-LSTM和CRF的架构

4) 面向开放域的实体抽取方法

针对如何从少量实体实例中自动发现具有区分力的模式，进而扩展到海量文本去给实体做分类与聚类的问题，文献[20]提出了一种通过迭代方式扩展实体语料库的解决方案，其基本思想是通过少量的实体实例建立特征模型，再通过该模型应用于新的数据集得到新的命名实体。文献[21]提出了一种基于无监督学习的开放域聚类算法，其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体，然后进行聚类。

1.2 语义类抽取

语义类抽取是指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联, 作为实体层面上的规整和抽象。以下介绍一种行之有效的语义类抽取方法，包含三个模块：并列度相似计算、上下位关系提取以及语义类生成 [22]。

1) 并列相似度计算

并列相似度计算其结果是词和词之间的相似性信息，例如三元组（苹果，梨，s1）表示苹果和梨的相似度是s1。两个词有较高的并列相似度的条件是它们具有并列关系（即同属于一个语义类），并且有较大的关联度。按照这样的标准，北京和上海具有较高的并列相似度，而北京和汽车的并列相似度很低（因为它们不属于同一个语义类）。对于海淀、朝阳、闵行三个市辖区来说，海淀和朝阳的并列相似度大于海淀和闵行的并列相似度（因为前两者的关联度更高）。

当前主流的并列相似度计算方法有分布相似度法（distributional similarity）和模式匹配法（pattern Matching）。分布相似度方法[23-24]基于哈里斯（Harris）的分布假设（distributional hypothesis）[25]，即经常出现在类似的上下文环境中的两个词具有语义上的相似性。分布相似度方法的实现分三个步骤：第一步，定义上下文；第二步，把每个词表示成一个特征向量，向量每一维代表一个不同的上下文，向量的值表示本词相对于上下文的权重；第三步，计算两个特征向量之间的相似度，将其作为它们所代表的词之间的相似度。模式匹配法的基本思路是把一些模式作用于源数据，得到一些词和词之间共同出现的信息，然后把这些信息聚集起来生成单词之间的相似度。模式可以是手工定义的，也可以是根据一些种子数据而自动生成的。分布相似度法和模式匹配法都可以用来在数以百亿计的句子中或者数以十亿计的网页中抽取词的相似性信息。有关分布相似度法和模式匹配法所生成的相似度信息的质量比较参见文献。

2) 上下位关系提取

该该模块从文档中抽取词的上下位关系信息，生成（下义词，上义词）数据对，例如（狗，动物）、（悉尼，城市）。提取上下位关系最简单的方法是解析百科类站点的分类信息（如维基百科的“分类”和百度百科的“开放分类”）。这种方法的主要缺点包括：并不是所有的分类词条都代表上位词，例如百度百科中“狗”的开放分类“养殖”就不是其上位词；生成的关系图中没有权重信息，因此不能区分同一个实体所对应的不同上位词的重要性；覆盖率偏低，即很多上下位关系并没有包含在百科站点的分类信息中。

在英文数据上用Hearst 模式和IsA 模式进行模式匹配被认为是比较有效的上下位关系抽取方法。下面是这些模式的中文版本（其中NPC 表示上位词，NP 表示下位词）：
NPC { 包括| 包含| 有} {NP、}* [ 等| 等等]
NPC { 如| 比如| 像| 象} {NP、}*
{NP、}* [{ 以及| 和| 与} NP] 等 NPC
{NP、}* { 以及| 和| 与} { 其它| 其他} NPC
NP 是 { 一个| 一种| 一类} NPC
此外，一些网页表格中包含有上下位关系信息，例如在带有表头的表格中，表头行的文本是其它行的上位词。

3) 语义类生成

该模块包括聚类和语义类标定两个子模块。聚类的结果决定了要生成哪些语义类以及每个语义类包含哪些实体，而语义类标定的任务是给一个语义类附加一个或者多个上位词作为其成员的公共上位词。此模块依赖于并列相似性和上下位关系信息来进行聚类和标定。有些研究工作只根据上下位关系图来生成语义类，但经验表明并列相似性信息对于提高最终生成的语义类的精度和覆盖率都至关重要。

1.3 属性和属性值抽取

属性提取的任务是为每个本体语义类构造属性列表（如城市的属性包括面积、人口、所在国家、地理位置等），而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。常见的属性和属性值抽取方法包括从百科类站点中提取，从垂直网站中进行包装器归纳，从网页表格中提取，以及利用手工定义或自动生成的模式从句子和查询日志中提取。
常见的语义类/ 实体的常见属性/ 属性值可以通过解析百科类站点中的半结构化信息（如维基百科的信息盒和百度百科的属性表格）而获得。尽管通过这种简单手段能够得到高质量的属性，但同时需要采用其它方法来增加覆盖率（即为语义类增加更多属性以及为更多的实体添加属性值）。

图5 爱因斯坦信息页

由于垂直网站（如电子产品网站、图书网站、电影网站、音乐网站）包含有大量实体的属性信息。例如上图的网页中包含了图书的作者、出版社、出版时间、评分等信息。通过基于一定规则模板建立，便可以从垂直站点中生成包装器（或称为模版），并根据包装器来提取属性信息。从包装器生成的自动化程度来看，这些方法可以分为手工法（即手工编写包装器）、监督方法、半监督法以及无监督法。考虑到需要从大量不同的网站中提取信息，并且网站模版可能会更新等因素，无监督包装器归纳方法显得更加重要和现实。无监督包装器归纳的基本思路是利用对同一个网站下面多个网页的超文本标签树的对比来生成模版。简单来看，不同网页的公共部分往往对应于模版或者属性名，不同的部分则可能是属性值，而同一个网页中重复的标签块则预示着重复的记录。
属性抽取的另一个信息源是网页表格。表格的内容对于人来说一目了然，而对于机器而言，情况则要复杂得多。由于表格类型千差万别，很多表格制作得不规则，加上机器缺乏人所具有的背景知识等原因，从网页表格中提取高质量的属性信息成为挑战。
上述三种方法的共同点是通过挖掘原始数据中的半结构化信息来获取属性和属性值。与通过“阅读”句子来进行信息抽取的方法相比，这些方法绕开了自然语言理解这样一个“硬骨头”而试图达到以柔克刚的效果。在现阶段，计算机知识库中的大多数属性值确实是通过上述方法获得的。但现实情况是只有一部分的人类知识是以半结构化形式体现的，而更多的知识则隐藏在自然语言句子中，因此直接从句子中抽取信息成为进一步提高知识库覆盖率的关键。当前从句子和查询日志中提取属性和属性值的基本手段是模式匹配和对自然语言的浅层处理。图6 描绘了为语义类抽取属性名的主框架（同样的过程也适用于为实体抽取属性值）。图中虚线左边的部分是输入，它包括一些手工定义的模式和一个作为种子的（词，属性）列表。模式的例子参见表3，（词，属性）的例子如（北京，面积）。在只有语义类无关的模式作为输入的情况下，整个方法是一个在句子中进行模式匹配而生成（语义类，属性）关系图的无监督的知识提取过程。此过程分两个步骤，第一个步骤通过将输入的模式作用到句子上而生成一些（词，属性）元组，这些数据元组在第二个步骤中根据语义类进行合并而生成（语义类，属性）关系图。在输入中包含种子列表或者语义类相关模式的情况下，整个方法是一个半监督的自举过程，分三个步骤：

模式生成：在句子中匹配种子列表中的词和属性从而生成模式。模式通常由词和属性的环境信息而生成。
模式匹配。
模式评价与选择：通过生成的（语义类，属性）关系图对自动生成的模式的质量进行自动评价并选择高分值的模式作为下一轮匹配的输入。

1.3 关系抽取

关系抽取的目标是解决实体语义链接的问题。关系的基本信息包括参数类型、满足此关系的元组模式等。例如关系BeCapitalOf（表示一个国家的首都）的基本信息如下：
参数类型：（Capital， Country）
模式：

元组：（北京，中国）；（华盛顿，美国）；Capital 和 Country表示首都和国家两个语义类。

早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后，实体间的关系模型逐渐替代了人工预定义的语法与规则。但是仍需要提前定义实体间的关系类型。文献[26]提出了面向开放域的信息抽取框架 (open information extraction,OIE)，这是抽取模式上的一个巨大进步。但OIE方法在对实体的隐含关系抽取方面性能低下，因此部分研究者提出了基于马尔可夫逻辑网、基于本体推理的深层隐含关系抽取方法[27]。

开放式实体关系抽取

开放式实体关系抽取可分为二元开放式关系抽取和n元开放式关系抽取。在二元开放式关系抽取中，早期的研究有KnowItAll[28]与TextRunner[27]系统，在准确率与召回率上表现一般。文献[29]提出了一种基于Wikipedia的OIE方法WOE，经自监督学习得到抽取器，准确率较TextRunner有明显的提高。针对WOE的缺点，文献[30]提出了第二代OIE ReVerb系统，以动词关系抽取为主。文献[31]提出了第三代OIE系统OLLIE(open language learning for information extraction)，尝试弥补并扩展OIE的模型及相应的系统，抽取结果的准确度得到了增强。
然而，基于语义角色标注的OIE分析显示：英文语句中40%的实体关系是n元的[32]，如处理不当，可能会影响整体抽取的完整性。文献[33]提出了一种可抽取任意英文语句中n元实体关系的方法KPAKEN，弥补了ReVerb的不足。但是由于算法对语句深层语法特征的提取导致其效率显著下降，并不适用于大规模开放域语料的情况。

基于联合推理的实体关系抽取

联合推理的关系抽取中的典型方法是马尔可夫逻辑网MLN(Markov logic network)[34]，它是一种将马尔可夫网络与一阶逻辑相结合的统计关系学习框架，同时也是在OIE中融入推理的一种重要实体关系抽取模型。基于该模型，文献[35]提出了一种无监督学习模型StatSnowball，不同于传统的OIE，该方法可自动产生或选择模板生成抽取器。在StatSnowball的基础上，文献[27,36]提出了一种实体识别与关系抽取相结合的模型EntSum，主要由扩展的CRF命名实体识别模块与基于StatSnowball的关系抽取模块组成，在保证准确率的同时也提高了召回率。文献[27,37]提出了一种简易的Markov逻辑TML(tractable Markov logic)，TML将领域知识分解为若干部分，各部分主要来源于事物类的层次化结构，并依据此结构，将各大部分进一步分解为若干个子部分，以此类推。TML具有较强的表示能力，能够较为简洁地表示概念以及关系的本体结构。

2 知识表示

传统的知识表示方法主要是以RDF(Resource Description Framework资源描述框架)的三元组SPO(subject,property,object)来符号性描述实体之间的关系。这种表示方法通用简单，受到广泛认可，但是其在计算效率、数据稀疏性等方面面临诸多问题。近年来，以深度学习为代表的以深度学习为代表的表示学习技术取得了重要的进展，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义[38-40]。

2.1 代表模型

知识表示学习的代表模型有距离模型、单层神经网络模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。详细可参见清华大学刘知远的知识表示学习研究进展。相关实现也可参见 [39]。

1）距离模型

距离模型在文献[41] 提出了知识库中实体以及关系的结构化表示方法(structured embedding，SE)，其基本思想是：首先将实体用向量进行表示，然后通过关系矩阵将实体投影到与实体关系对的向量空间中，最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵，使得协同性较差。

2）单层神经网络模型

文献[42]针对上述提到的距离模型中的缺陷，提出了采用单层神经网络的非线性模型(single layer model，SLM)，模型为知识库中每个三元组定义了以下形式的评价函数：

式中，为关系 r 的向量化表示；为tanh函数；是通过关系r定义的两个矩阵。单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性，但在计算开销上却大大增加。

3）双线性模型

双线性模型又叫隐变量模型 (latent factor model，LFM)，由文献[43-44]首先提出。模型为知识库中每个三元组定义的评价函数具有如下形式：

式中,是通过关系r 定义的双线性变换矩阵；是三元组中头实体与尾实体的向量化表示。双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算，而且还能够有效刻画实体间的协同性。基于上述工作，文献[45]尝试将双线性变换矩阵r M 变换为对角矩阵，提出了DISTMULT模型，不仅简化了计算的复杂度，并且实验效果得到了显著提升。

3）神经张量模型

文献[45]提出的神经张量模型，其基本思想是：在不同的维度下，将实体联系起来，表示实体间复杂的语义联系。模型为知识库中的每个三元组定义了以下形式的评价函数：

式中，关系 r 的向量化表示；为tanh函数；是一个三阶张量；是通过关系r定义的两个矩阵。

神经张量模型在构建实体的向量表示时，是将该实体中的所有单词的向量取平均值，这样一方面可以重复使用单词向量构建实体，另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。

4）矩阵分解模型

通过矩阵分解的方式可得到低维的向量表示，故不少研究者提出可采用该方式进行知识表示学习，其中的典型代表是文献[46]提出的RESACL模型。在RESCAL模型中，知识库中的三元组集合被表示为一个三阶张量，如果该三元组存在，张量中对应位置的元素被置1，否则置为0。通过张量分解算法，可将张量中每个三元组对应的张量值解为双线性模型中的知识表示形式并使尽量小。

5）翻译模型

文献[47]受到平移不变现象的启发，提出了TransE模型，即将知识库中实体之间的关系看成是从实体间的某种平移，并用向量表示。关系可以看作是从头实体向量到尾实体向量的翻译。对于知识库中的每个三元组,TransE都希望满足以下关系：，其损失函数为：, 该模型的参数较少，计算的复杂度显著降低。与此同时，TransE模型在大规模稀疏知识库上也同样具有较好的性能和可扩展性。

2.2 复杂关系模型

知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N4种类型[47]，而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。由于TransE模型不能用在处理复杂关系上[39]，一系列基于它的扩展模型纷纷被提出，下面将着重介绍其中的几项代表性工作。

1）TransH模型

文献[48]提出的TransH模型尝试通过不同的形式表示不同关系中的实体结构，对于同一个实体而言，它在不同的关系下也扮演着不同的角色。模型首先通过关系向量与其正交的法向量选取某一个超平面F，然后将头实体向量和尾实体向量法向量的方向投影到F, 最后计算损失函数。TransH使不同的实体在不同的关系下拥有了不同的表示形式，但由于实体向量被投影到了关系的语义空间中，故它们具有相同的维度。

2）TransR模型

由于实体、关系是不同的对象，不同的关系所关注的实体的属性也不尽相同，将它们映射到同一个语义空间，在一定程度上就限制了模型的表达能力。所以，文献[49]提出了TransR模型。模型首先将知识库中的每个三元组(h, r,t)的头实体与尾实体向关系空间中投影，然后希望满足的关系，最后计算损失函数。
文献[49]提出的CTransR模型认为关系还可做更细致的划分，这将有利于提高实体与关系的语义联系。在CTransR模型中，通过对关系r 对应的头实体、尾实体向量的差值进行聚类，可将r分为若干个子关系。

3）TransD模型

考虑到在知识库的三元组中，头实体和尾实体表示的含义、类型以及属性可能有较大差异，之前的TransR模型使它们被同一个投影矩阵进行映射，在一定程度上就限制了模型的表达能力。除此之外，将实体映射到关系空间体现的是从实体到关系的语义联系，而TransR模型中提出的投影矩阵仅考虑了不同的关系类型，而忽视了实体与关系之间的交互。因此，文献[50]提出了TransD模型，模型分别定义了头实体与尾实体在关系空间上的投影矩阵。

4）TransG模型

文献[51]提出的TransG模型认为一种关系可能会对应多种语义，而每一种语义都可以用一个高斯分布表示。TransG模型考虑到了关系r 的不同语义，使用高斯混合模型来描述知识库中每个三元组(h,r,t)头实体与尾实体之间的关系，具有较高的实体区分度。

5）KG2E模型

考虑到知识库中的实体以及关系的不确定性，文献[52]提出了KG2E模型，其中同样是用高斯分布来刻画实体与关系。模型使用高斯分布的均值表示实体或关系在语义空间中的中心位置，协方差则表示实体或关系的不确定度。
知识库中，每个三元组(h,r,t)的头实体向量与尾实体向量间的

关系r可表示为：

3 知识融合

通过知识提取，实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标。但是由于知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、层次结构缺失等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织[53]，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤[54]，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。

3.1 实体对齐

实体对齐 (entity alignment) 也称为实体匹配 (entity matching)或实体解析(entity resolution)或者实体链接（entity linking），主要是用于消除异构数据中实体冲突、指向不明等不一致性问题，可以从顶层创建一个大规模的统一知识库，从而帮助机器理解多源异质的数据，形成高质量的知识。

在大数据的环境下，受知识库规模的影响，在进行知识库实体对齐时，主要会面临以下3个方面的挑战[55]：1) 计算复杂度。匹配算法的计算复杂度会随知识库的规模呈二次增长，难以接受；2) 数据质量。由于不同知识库的构建目的与方式有所不同，可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题[56]；3) 先验训练数据。在大规模知识库中想要获得这种先验数据却非常困难。通常情况下，需要研究者手工构造先验训练数据。

基于上述，知识库实体对齐的主要流程将包括[55]：1) 将待对齐数据进行分区索引，以降低计算的复杂度；2) 利用相似度函数或相似性算法查找匹配实例；3) 使用实体对齐算法进行实例融合；4) 将步骤2)与步骤3)的结果结合起来，形成最终的对齐结果。对齐算法可分为成对实体对齐与集体实体对齐两大类，而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。

1）成对实体对齐方法

① 基于传统概率模型的实体对齐方法

基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性，而并不考虑实体间的关系。文献[57]将基于属性相似度评分来判断实体是否匹配的问题转化为一个分类问题，建立了该问题的概率模型，缺点是没有体现重要属性对于实体相似度的影响。文献[58]基于概率实体链接模型，为每个匹配的属性对分配了不同的权重，匹配准确度有所提高。文献[59]还结合贝叶斯网络对属性的相关性进行建模，并使用最大似然估计方法对模型中的参数进行估计。

② 基于机器学习的实体对齐方法
基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类，基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习。
通过属性比较向量来判断实体对匹配与否可称为成对实体对齐。这类方法中的典型代表有决策树 [60]、支持向量机[61]、集成学习[62]等。文献[63]使用分类回归树、线性分析判别等方法完成了实体辨析。文献[64]基于二阶段实体链接分析模型，提出了一种新的SVM分类方法，匹配准确率远高于TAILOR中的混合算法。
基于聚类的实体对齐算法，其主要思想是将相似的实体尽量聚集到一起，再进行实体对齐。文献[65]提出了一种扩展性较强的自适应实体名称匹配与聚类算法，可通过训练样本生成一个自适应的距离函数。文献[66]采用类似的方法，在条件随机场实体对齐模型中使用监督学习的方法训练产生距离函数，然后调整权重，使特征函数与学习参数的积最大。
在主动学习中，可通过与人员的不断交互来解决很难获得足够的训练数据问题，文献[67]构建的ALIAS系统可通过人机交互的方式完成实体链接与去重的任务。文献[68]采用相似的方法构建了ActiveAtlas系统。

2）局部集体实体对齐方法

局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重，并通过加权求和计算总体的相似度，还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度[69]，算法为每个实体建立了名称向量与虚拟文档向量，名称向量用于标识实体的属性，虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值[55]。为了评价向量中每个分量的重要性，算法主要使用TF-IDF为每个分量设置权重，并为分量向量建立倒排索引，最后选择余弦相似性函数计算它们的相似程度[55]。该算法的召回率较高，执行速度快，但准确率不足。其根本原因在于没有真正从语义方面进行考虑。

3）全局集体实体对齐方法

① 基于相似性传播的集体实体对齐方法
基于相似性传播的方法是一种典型的集体实体对齐方法，匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性，而这种相似性又会影响关联的其他实体[55]。
相似性传播集体实体对齐方法最早来源于文献[70-71]提出的集合关系聚类算法，该算法主要通过一种改进的层次凝聚算法迭代产生匹配对象。文献[72]在以上算法的基础上提出了适用于大规模知识库实体对齐的算法SiGMa，该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模，属于二次分配问题，可通过贪婪优化算法求得其近似解。SiGMa方法[55]能够综合考虑实体对的属性与关系，通过集体实体的领域，不断迭代发现所有的匹配对。
② 基于概率模型的集体实体对齐方法基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理，常用的方法有LDA模型[73]、CRF模型[74]、Markov逻辑网[75]等。
文献[73]将LDA模型应用于实体的解析过程中，通过其中的隐含变量获取实体之间的关系。但在大规模的数据集上效果一般。文献[74]提出了一种基于图划分技术的CRF实体辨析模型，该模型以观察值为条件产生实体判别的决策，有利于处理属性间具有依赖关系的数据。文献[66]在CRF实体辨析模型的基础上提出了一种基于条件随机场模型的多关系的实体链接算法，引入了基于canopy的索引，提高了大规模知识库环境下的集体实体对齐效率。文献[75]提出了一种基于Markov逻辑网的实体解析方法。通过Markov逻辑网，可构建一个Markov网，将概率图模型中的最大可能性计算问题转化为典型的最大化加权可满足性问题，但基于Markov网进行实体辨析时，需要定义一系列的等价谓词公理，通过它们完成知识库的集体实体对齐。

3.2 知识加工

通过实体对齐，可以得到一系列的基本事实表达或初步的本体雏形，然而事实并不等于知识，它只是知识的基本单位。要形成高质量的知识，还需要经过知识加工的过程，从层次上形成一个大规模的知识体系，统一对知识进行管理。知识加工主要包括本体构建与质量评估两方面的内容。

1）本体构建

本体是同一领域内不同主体之间进行交流、连通的语义基础[76]，其主要呈现树状结构，相邻的层次节点或概念之间具有严格的“IsA”关系，有利于进行约束、推理等，却不利于表达概念的多样性。本体在知识图谱中的地位相当于知识库的模具，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小[77]。

转自：专知

新一代技术+商业操作系统：

AI-CPS OS

在新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。