【浙大知识图谱课程】第二讲-第1节-什么是知识表示

2022 年 1 月 15 日 专知

本讲义系列主要整理自浙江大学《知识图谱导论》（浙江省优秀研究生课程）的课程讲义。作为一门导论性质课程，该课程希望帮助初学者梳理知识图谱基本知识点和关键技术要素，帮助技术决策者建立知识图谱的整体视图和系统工程观，帮助前沿科研人员拓展创新视野和研究方向。

本次推文主要介绍讲义的“第二讲知识图谱的表示第1节什么是知识表示”，更多相关内容请点击上方“话题”或文末“往期推荐”。

同学们好！在第二讲中我们重点探讨知识图谱的一个最基础的问题，即：怎样表示知识。我们在构建知识图谱的时候，通常第一件事就是设计Schema或本体。三元组是知识图谱最基本的知识表示单元。

当然，知识的表示远远没有这么简单。事实上，在深度学习兴起之前，研究怎样用计算机易于处理的方式来表示人类知识一直居于人工智能研究的核心位置。

在这一讲中，我们将分别介绍知识表示的内涵、人工智能发展历史长河中出现的各种知识表示方法，并具体围绕知识图谱介绍最常用的符号表示和向量表示两种方法。

这一讲介绍的内容也属于知识图谱与人工智能领域知识表示、表示学习等方向的交叉领域。

在第1小节中，我们首先来回答一个问题：到底什么是知识表示？

在上一讲中，我们曾经提到过一个问题：那到底什么是知识？柏拉图说知识是“Justified True Belief”。

实际上，人类的自然语言，以及创作的绘画和音乐、数学语言、物理模型、化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其他物种心智的最本质特征。

所以传统的人工智能领域有一个经典研究方向叫知识工程和专家系统。这种经常被称为是 Old Fashioned AI 的基本思想是建立一个系统能够从专家大脑里获取知识，即知识工程，再通过一个推理引擎来为非专家用户提供服务，比如辅助诊断、判案等等。

那么到底什么是知识表示呢？让我们回到上个世纪的人工智能研究。这里有一篇1993年由当时的MIT AI Lab发表的“What is Knowledge Representation ”的论文。

我建议大家有时间可以去阅读一下，虽然和当下的AI研究热点深度学习相去甚远，但这篇文章里面所探讨的AI课题，当下的人工智能仍然远远没有解决。

简单而言，知识表示（KR）就是用易于计算机处理的方式来描述人脑的知识的方法。KR不是数据格式、不等同于数据结构、也不是编程语言，对于人工智能而言，数据与知识的区别在于KR支持推理。

我们摘录了这篇文章中关于KR的五个用途的表述。首先A KR is a surrogate，每个客观事物应该有一个统一的机器标示，即事物的命名体系，这就好比我们来到这个世界，首先记住的是万事万物的名字。

其次，A KR is set of ontological commitments，我们记住了大家的名字，然后会进一步做概念的抽象，这几个人是本科生、那几个人是博士生、他们都是浙大学生，这门课是必修课，上课的老师是研究人工智能的教授，我们通过对认知的事物进行抽象建立起有关万事万物的抽象概念模型，这就是Ontology。

再进一步，A KR is a theory of intelligent reasoning，我们建立了关于万物的概念表示体系，我们就能进一步开始推理，比如我们如果知道知识图谱课程的主题分类是人工智能，上课的老师叫某某，我们就可以近似的推断某某的研究方向之一是人工智能。

第四点，A KR is a medium for efficient computation，这是说这种表示方法还要易于被机器处理，比如自然语言文本可以表示前面所有的内容，但却并不易于被机器处理，所以自然语言不是适合于机器的知识表示方法。

最后A KR is a medium of human expression，这一条是说知识表示同时也是要易于人来理解的，这和AI的可解释性要求有关，这是当前神经网络方法表示知识的最大问题，关于这一点，我们后面还要专门提及。

传统人工智能领域的知识表示方法主要以符号表示方法为主，例如影响今天知识图谱发展的语义网络、描述逻辑等，影响对话系统的框架系统等。

这些方法都尝试用计算机符号来表示人脑中的知识逻辑，虽然很多方法已经逐渐不被人提及，但实际上对今天的很多信息系统的建设都或多或少的产生过影响。我们将在下一节简略回顾这些历史上出现过的各种知识表示方法。

符号表示方法的主要缺点是不易于刻画隐式的知识，同时因为推理依赖于知识描述的精确性，比如一个字符串表示稍有错误就无法完成推理，因而传统的符号人工智能研究的很多推理机都没有得到大规模的实用。

随着深度学习和表示学习的兴起，用参数化的向量来表示实体以及实体之间的关系，并利用神经网络来实现更加鲁棒的推理成为一个重要的发展趋势。基于向量的方法有一个比较大的好处是易于捕获隐式的知识。

例如，我们可以将张三和李四都投影到向量空间，如果他们都有一个共同的属性，比如“就读于浙江大学”，尽管知识库并没有明确描述张三和李四是校友关系，但我们可以通过两个实体在向量空间的位置再叠加“校友关系”的向量表示，近似的推断出他们之间可能存在校友关系、同学关系、甚至同班关系。

这种在向量空间处理隐含知识的能力非常重要，因为我们永远无法显示描述所有的知识。向量表示的另外一个好处是将推理过程转化为向量、矩阵或张量之间的计算，这摆脱了传统基于符号搜索的推理计算方式，效率更高。但知识向量化有一个比较大的缺点是丢失了符号表示的可解释性。关于这个问题，我们会在后续的章节中专门展开论述。

更进一步，知识的向量化为我们有机的融合多种模态的数据提供了便利，向量化的表示已经在人工智能的其他领域非常常见，例如我在自然语言处理中，可以为句子中的每个词学一个向量表示，叫Word Embedding或分布式向量表示Distributed Vector Representation，在图像视频中可以为每个视觉对象学习一个向量表示。

例如，一个视觉感知的“树”，怎样和大脑中有关“树”的概念对应起来？文本中关于某个实体的大段文本描述怎样和知识图谱中的这个实体关联起来？关于这些内容，后面的章节都会具体展开介绍。

我们用深度学习大佬Hinton老爷子的一些观点作为本小节的总结。Hinton在2015年AAAI的一个有关知识表示的Symposium上做了一个题为“Aetherial Symbol”的报告，我把标题翻译为超凡的符号。

他这样总结：智能的精华是怎样实现推理，推理的关键是形式化逻辑；同时他批评了深度学习至上的观点，指出学习需要我们清楚地知道要学习的是什么，那些认为任何东西都可以学习出来的想法是愚蠢的。

他也反驳了传统符号主义的观点，认为大脑中并没有符号和图像的存储，而是一些向量之间的相互发生作用。我这里并不想说Hinton老爷子讲的就一定是正确的，但将符号表示和神经网络方法相互结合是知识表示的重要发展方向，特别是对于知识图谱，这两者的有机融合也是知识图谱的构建和应用的非常重要的基本技术路线，这一观点也将贯穿于知识图谱这门课的始终。

专知便捷查看