肖仰华教授讲授【知识图谱概念与技术】研讨实录(二)

肖仰华教授讲授【知识图谱概念与技术】研讨实录(二)

文章来源于微信公众号:知识工场(ID:fudankw)

原文链接:请点击

文章仅用于学习交流,如有侵权请联系删除


以下为课程第二章《知识图谱基础知识》的研讨内容:

1、知识图谱有哪些典型应用?除了书本中的应用还有哪些?

学生:(1)直接应用:对数据精准的分析。精准分析、舆情统计、军情统计等。甚至精细化分析用户评论。

(2)智慧搜索:精准搜索意图,如精准分类、语义理解、个性化推荐。复杂多元化搜索,如表格、文本、图片、视频。

(3)智能推荐:场景化推荐,任务型推荐。如组装电脑,冷启动环境下的推荐,跨领域推荐。

(4)自然人机交互:人机交互将更加自然,对话式交互取代关键词搜索。

肖仰华老师:很多同学还列出了反欺诈,金融风险相关的应用。这类应用其实在知识图谱出来之前,在关联数据分析、网络数据分析等领域就有此类应用了。所以金融相关的关系网络也可以视作是知识图谱,但是其分析更接近图分析、复杂网络分析。


2、数据、信息与知识的差别是什么?

学生:数据是对客观世界的符号化记录,信息是被赋予意义的数据,知识是信息之间有意义的关联 。知识作为信息加工提炼后的结晶,是数据与信息中的精华。事实上,对数据与信息的记录往往只是手段,而对知识的获取与传承却是人类社会的根本目标。


3、知识图谱中的知识有哪些典型类型?分别举例。

学生:(1)事实知识。例如,(柏拉图,出生地,雅典)。

(2)概念知识。例如,(柏拉图 isA 哲学家),或者(唯心主义哲学家 subclassOf 哲学家)。

(3)词汇知识。例如,(妻子,同义,老婆)。

(4)常识知识。例如,如果X是一个人,那么X要么是男人,要么是女人。


4、什么是领域知识图谱?与通用知识图谱有何区别以及联系?

学生:领域知识图谱(DKG)就是关注特定领域知识的知识图谱。它与通用知识图谱(GKG)的区别在于:

(1)从知识表示层面来看,GKG涵盖的范围明显大于DKG,而DKG通常更深,涵盖的是细粒度的知识。

(2)在知识获取层面,DKG对质量往往有着极为苛刻的要求。

(3)在知识应用层面,DKG的推理链条相对较长,应用相对复杂。

同时,GKG与DKG的关系又是十分密切的:

(1)领域知识是通过隐喻或者类比,从通用知识发展而来的。

(2)GKG与DKG相互支撑,具体来说,GKG给DKG提供高质量的种子事实,而DKG在建好之后,又可以反哺GKG。

肖仰华老师:希望大家能真正明白这些差别,要能举出实际的例子。在实际应用中,应用较多的还是领域知识图谱,领域应用往往缺失数据,但是专家知识丰富,如何利用专家知识弥补数据不足是个关键问题。我们大家所熟悉的深度学习这些机器学习模型在缺失数据的情况下能力有限,利用专家知识就是最为重要的思路之一,也是我们一直强调来自专家的符号知识一定要与统计学习模型融合的原因,希望大家对这些前沿问题能够形成深刻理解。


5、知识图谱有哪些分类维度?分别给出每类中的典型。

学生:从四个维度进行分类 :1. 按照是通用还是专用领域,可以分为通用知识图谱、领域知识图谱和企业知识图谱。2. 按照构建方式,可以分为全自动、半自动以及以人工为主构建的知识图谱。3. 按照语言,可以分为单语言(比如英语、汉语)和多语言知识图谱。4.按照知识图谱中的知识类型,可以分为概念图谱、百科图谱(涵盖以实体为中心的事实知识)、常识图谱和词汇图谱。


6、知识图谱与哪些计算机学科有关系?有着怎样的关系?

学生:知识表示、数据库、机器学习、nlp、信息检索、数据挖掘、可视化分析。知识图谱的狭义概念是一类语义网络,而语义网络知识是各种知识表示的一种。知识图谱与nlp关系密切,知识图谱可以用做支撑nlp的背景知识。知识图谱实现对数据的高效管理,包含查询表达,查询处理等都与机器学习有关。

肖仰华老师:的确,知识图谱与计算机的很多子学科有关系。事实上,不同学科对知识图谱的看法都不尽相同。知识图谱是一个综合性强,涉及多学科的新型交叉学科。不同学科背景的学者看待知识图谱有着不同的视角,很容易得出不同的观点与结论。这就好比盲人摸象,不同学者眼中的知识图谱是不同的。我们对待知识图谱这样的新兴学科应该秉持开放包容、兼收并蓄的心态,静待时间来检验真理。


7、什么是知识表示?知识表示的关键要素是什么?知识表示可以如何分类?

学生:知识表示是研究用机器表示知识的可行性、有效性的一般方法,是一种数据结构与控制结构的统一体,既考虑知识的存储,又考虑知识的使用。知识表示可看成是一组描述事物的约定,把人类知识表示成机器能处理的数据结构。

肖仰华老师:需要注意几点:

1、知识表示主要分为符号表示和数值表示,这样的分类是一种方式,是可以的。

2、图论、逻辑学、概率论,是按照其支撑学科进行分类,也是合理的。

此外, 将融合了专家知识的概率模型,包括概率图模型、马尔可夫决策过程等归结为一种知识表示而非统计学习模型,这是一个新尝试,与传统的人工智能书籍的做法不同。传统的知识表示书籍,一般不会把上述统计模型视作知识表示,但是在越来越多的实际应用中 ,需要表达决策逻辑,决策过程,首先就需要表示,所以,在我们课程里,将其视作一类知识表示也是合适的。


8、知识图谱有哪几种基本的表示方式?各自优缺点是什么?

学生:(1)基于图的表示。优点为图模型是知识图谱的逻辑表达模型,是人们最容易理解的一种表示。缺点是机器难以理解。

(2)基于数值的表示。优点是可以将知识图谱表示为低维稠密实值向量,能让计算机有效地处理和利用知识图谱。缺点是人不易理解,不直观。


9、知识图谱数值表示学习,有哪几类典型方法?概述其基本思路。

学生:(1)基于距离

SE模型:两个实体属于同一个三元组时,它们的向量表示在投影后的空间中也应该彼此靠近。

(2)基于翻译

TransE:头实体利用关系进行翻译后应该尽可能的接近尾实体;

TransH:头尾实体在关系相对应的超平面上的投影彼此接近;

TransR:头尾实体在关系空间中的投影彼此接近;

TransD:在TransR的基础上,对于头尾实体采用不同的映射。

肖仰华老师:知识图谱的向量化学习是近期的研究热点,本章所述内容仅包含早期的几个经典模型。当前的这些研究工作在落地过程中仍有待解决的问题,比如,提升方法的可伸缩性。大量的学习方法难以适应大规模知识图谱,保证图谱的语义,在向量化学习过程中,图谱属性与关系的语义信息。信息会丢失,所以如何保留图谱的语义仍是难题之一,知识图谱表示学习仍然有很多问题可以研究。


10、谓词逻辑与产生式规则有何差别?

学生:谓词逻辑可以表达一个非真即假的陈述。而产生式规则常用于表示事实与规则,以及相应的不确定性度量。

很多产生式规则具有不确定性,而逻辑谓词则不允许。产生式规则可以表示动作,而谓词逻辑只能表示命题。


11、框架表示的理论基础是什么?其基本观点是什么?

学生:理论基础是框架理论。其基本观点是人们对现实世界中各类事物的认知都是以框架的结构存储在记忆中的。当人面临新的情境时,会从记忆中找出一个合适的框架,并根据实际情况对这一框架的细节进行加工、修改和补充,形成对新情景的认识并存入人脑中。


12、有哪些树形的知识表示?在故障诊断应用中使用怎样的树形表示?其基本特征是什么?

学生:决策树,故障诊断用故障树(树形逻辑因果关系图),基本特征是父节点是产生故障的结果,也称输出事件,子节点是产生故障的原因,也称输入事件。利用逻辑符号连接子节点和父节点。

肖仰华老师:我之所以在课程里提这两颗树,是因为太多实际应用可以用这两颗树解决。很多企业抛出的实际问题,用知识图谱解决不了,用这两颗树可以解决。在实际应用中,大家千万不要教条,不是什么都可以用知识图谱来表达和解决的。


13、概率图模型与马尔可夫随机场是什么关系?

学生:马尔科夫模型是一种无向概率图模型,其与马尔科夫链并不是很一样。马尔科夫链的节点是状态,边是转移概率,是template CPD的一种有向状态转移表达。而马尔科夫模型是与贝叶斯模型并列的一种概率图模型。其作用是描述互相影响,互相作用,不存在因果关系的两个随机变量之间的关系。因为作用是相互的,所有马尔科夫模型的边是无向的,或者可以说是双向的。

肖仰华老师:pgm 是 DL 之前的热点,且还会继续成为热点。沿着 pgm 仍有大量工作可做,希望大家给予足够关注,而不是什么都是 DL。


14、MC 与 MDP 以及 POMDP 三者之间是什么关系?

学生:MC 的一个扩展是 MDP,MDP 在 MC 的状态集与转移矩阵基础上增加了动作集合与奖励函数。POMDP 在 MDP 基础上进一步发展,不同于 MDP, POMDP 的当前状态是不确定的,换言之是若干状态的一个概率分布。

肖仰华老师:大家可以通过 dalphe keler 的 probalistic graphic model 深入学习这些概念。


15、马尔可夫逻辑网与谓词逻辑知识库以及马尔可夫随机场有着怎样的关系?

学生:MLN 是将一阶逻辑和马尔科夫随机场结合起来的模型。传统的一阶逻辑知识库被视为在一系列可能世界上所施加的一组硬约束,符合条件的可能世界不能与知识库中任意一条规则冲突。MLN允许一个可能世界与知识库中规则冲突,并以概率表示。

肖仰华老师:MLN 又是一个被 DL 抢了风头的技术,DL 起来之前,MLN 那几年很火,客观地讲,MLN 背后的思想是很值得称赞的。谓词逻辑、概率模型、图模型三者融合,应该再没有比这个建模能力再强的。但是 PGM、MLN 这类模型在实际应用中关键要解决计算效率问题。


点击可查看研讨实录(一)


「华来知识」成立于2017年,孵化于清华大学智能技术与系统国家重点实验室,是一家技术领先的人工智能企业。公司专注于提供新一代人工智能人机交互解决方案,利用自身技术为企业打造由人工智能驱动的知识体系,借此改善人类生活。
华来科技将持续为企业客户提供优质服务,助力企业在专业领域的人工智能应用,提供完善可靠高效的产品解决方案。

发布于 2020-07-01 17:02