OpenKG区块链:构建可信开放的联邦知识图谱平台

陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台

陈华钧、胡凝

文章导读

本文介绍了OpenKG在区块链方向的一些实践和尝试。经过一年努力,OpenKG初步完成了底层区块链平台测试,以及OpenKG数据集、工具集和Openbase细粒度知识众包的上链测试工作。在这个测试平台中,已包含1033位确权的知识贡献者。上链测试两个月,累计由真实知识消费者触发的知识点亮和链上存证次数已达55万次(日均峰值一万多次),并首次测试实现了实体/三元组粒度的知识确权。目前,通过OpenKG发布的开放图谱和开源工具,以及通过Openbase众包采集的三元组,OpenKG都在链上进行存证操作,并计算和分配产生的荣誉值。OpenKG希望通过这项工作为知识图谱社区提供更加可信、可溯源的知识众包平台。


本文也梳理了在OpenKG上链实践过程中的一些思考:知识是有价值的,即使是权限可控的单一机构内部,知识来源也是多样化的,必定存在知识的价值量化、确权、溯源、隐私及可信等多方面问题。要在知识生产和消费闭环中平衡知识的责、权、利,并有效的激励众包,一种方法就是让知识上链,并构建知识的区块链系统。OpenKG作为新技术测试床,在相关方向努力做一些粗浅尝试,也希望为各企业机构建立知识图谱众包平台提供参考。在实践过程中,我们也发现很多问题和挑战,如细粒度知识确权带来的性能问题、细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题等,这些都需要更深入的研究和实践。


本文作者:陈华钧(浙江大学)、胡凝(Onchain)、漆桂林(东南大学)、王昊奋(同济大学)、毕桢(浙江大学)、李捷(Onchain)、杨帆(浙江大学)


版权声明:本文版权归OpenKG及作者所有,转发及摘录请注明来源


目录

1. 知识图谱的价值联邦

1.1 从语义网的三个内涵说起

1.2 知识的价值链

1.3 联邦知识图谱众包

2 知识图谱与区块链

2.1 关于区块链与分布式账本

2.2 链上知识:知识的区块链

2.3 开放知识图谱与区块链

3 OpenKG上链:链上的知识图谱

3.1 OpenKG上链架构

3.2 OpenKG的价值模型

3.2.1 K-Point:知识价值度量

3.2.2 OpenKG Token:荣誉值度量

3.3. OpenKG区块链的技术实现

3.3.1 OpenKG上链基本技术架构

3.3.2 OpenKG中的知识确权

3.3.3 OpenKG的知识溯源

3.3.4 OpenKG的可信度量

3.3.5 OpenKG区块链启动方案

3.4 OpenKG.CN上链实践:数据集与工具集上链

3.4.1 OpenKG.CN简介

3.4.2 图谱资源注册与上链

3.4.3 图谱资源的价值点亮

3.5 OpenBase上链实践:细粒度知识的上链

3.5.1 OpenBase简介

3.5.2 细粒度知识上链

3.5.3 细粒度的知识点亮

4 总结与展望

5 致谢

1. 知识图谱的价值联邦

1.1 从语义网的三个内涵说起

知识图谱的早期理念源于Web之父 Tim Berners Lee 关于语义网(The Semantic Web) 的设想,旨在采用图的结构来建模和记录世界万物之间的关联关系,并沉淀关于万物的知识。经过近二十年的发展,知识图谱的相关技术已经在搜索引擎、智能问答、语言及视觉理解、大数据决策分析、智能设备物联等众多领域得到广泛应用,被公认为是实现认知智能和智能互联的重要基石。

尽管知识图谱技术取得飞速进步,但仍然仅实现了语义网的三分之一的愿景。根据Tim Berners Lee的早期设想,语义互联网的目标是“Using the WWW infrastructure to create a global, decentralized, weblike mesh of machine-processable knowledge”。这有三个方面的内涵:知识互联、去中心化和知识的可信。三个内涵分别对应互联网的三个核心问题。

  • 知识互联旨在设计一种统一的知识表示框架来将分散的数据相互关联起来,以便利用图的结构特点来实现体验更好的搜索、问答、分析等能力。早期的Linked Data即是这一理念的体现。而知识图谱则是目前知识互联最有影响力的体现。
  • 去中心化是对Web架构的设想。尽管Web仍然没有实现去中心化设计,但互联网数据具有分散自治的特点,知识的生产者理应拥有知识的所有权和控制权。因此,去中心化构想反映的是对知识确权的要求。
  • 知识的可信是指通过互联网发布的知识应该是可溯责的(Accountability)。由于互联网的开放性和匿名性,知识可能真假难辨,且会随着时间真假发生变化。因此,合理的知识发布机制还需要对知识进行可信度量和鉴别真假。

这三个内涵第一个与知识的表示框架有关,第二个与互联网的分布式架构有关,第三个与互联网的社会属性有关。而当前的企业级知识图谱管理架构主要考虑知识的互联,而忽视或弱化了知识的价值量化、分布式确权和可信度量等众多问题。


1.2 知识的价值链

  • 知识是有价值的

知识是有价值的。互联网中的知识之间存在相关性,这些知识相互链接,形成知识图谱。互联网作为知识保存的一个载体,同时支持知识使用的场景,也承载新知识的产生。更为具体来说互联网知识有以下几个特性:

  1. 知识图谱包含知识和知识之间的联系;
  2. 知识节点存在价值,知识的联系也有价值;
  3. 知识因为“被使用”而产生价值;
  4. 被“证伪”的知识也存在价值,甚至在某些场景中,“反知识”更加令人记忆深刻;
  5. 知识的价值可以随着知识的联系进行传递。
  • 知识的责、权、利

知识图谱技术强调将分散的碎片化数据相互关联、链接融合。即使是在单一的企业或机构内部,知识图谱的数据也通常来源于不同部门。知识图谱的构建通常需要依靠多部门协作完成。因此,一个好的知识图谱的构建平台需要有明晰的责、权、利方面的考虑,而非仅仅考虑数据清洗、算法抽取、协同编辑等功能。

如图1所示,从知识的生产者的视角,首先要考虑知识的价值量化方法。简单的价值量化模型可以依据知识的使用频率,即知识被使用的越多,知识的价值越高。合理的价值量化是知识众包激励的基本前提。

其次,要考量知识的所有权和控制权保护,即:知识确权。即便在一个权限可集中控制的企业内部,由于知识图谱中的知识粒度很细,在三元组级别考虑知识的确权问题也带来极大的技术挑战。知识的合理确权也是知识众包激励的基本保障。

再次,知识产生的结果未必总是正面的,错误、虚假甚至恶意的知识会给下游的知识使用者带来不利后果,因此不仅要考虑知识获取的正面激励,还需要提供必要的机制来追溯知识的来源,即:知识溯责(Accountability)。有效的知识溯责,可以帮助提升知识图谱的众包质量,对抗虚假和恶意的知识输入。

更进一步,知识最终需要解决知识的可信问题,即:可信度量。知识图谱中的每条三元组代表对客观世界的一条事实描述。这些事实型知识不仅有真假纬度的可信问题,也因为很多事实本身具有不确定和时效性,也带来知识不确定的可信度量问题。

图1. 知识图谱的价值联邦

知识的价值点亮与传播

知识的消费是衡量知识价值最直接的方式。知识被用得越多,知识的价值越高。同时知识的消费触发知识的价值传播。我们将知识被消费的过程称为知识的价值点亮。知识图谱使用场景支持不同的知识使用者有限的“点亮”知识图谱中的节点,从而触发知识传播。

“搜索点亮”是指知识的使用者在搜索过程对知识进行消费,从而触发被搜索知识条目的价值点亮。知识图谱支持语义关联搜索,进一步的关联搜索将继续触发新的知识点亮。每一步点亮都对产生的价值进行记录和存证。同时由于知识来源于不同的生产者,价值也需要以合理的方式分配给价值传播链上对应的知识生产者。

“问答点亮”和“搜索点亮”比较类似,消费者和知识库进行问答交互的过程即是消费过程。被问答触及的知识条目是被问答点亮的知识,问答检索过程中从起始节点到达答案节点所遍历的中间节点也将被点亮和价值存证。

“推理点亮”是指推理过程触发的知识点亮。知识图谱中的知识通常是不完备的,对知识图谱的推理过程是基于知识图谱中的已有知识完成。同时,由于知识来源众多,推理点亮的过程可能也是以联邦的方式完成,即:联邦推理点亮。

“分析点亮”是指将来源不同的知识进行综合分析从而不断触发知识图谱中相关知识的点亮过程。同样的,由于知识来源多样,分析的过程也可能是以联邦方式完成的,比如可能通过联邦学习的方式建立分析模型。

如下图(横轴代表时间,每条曲线都经过校准,以便在同一坐标系内可见):

图2. 知识的价值曲线

知识价值(单价)

知识单位价值发展的过程,当少数人了解的时候,单位价值较高,随着越来越多的接受和使用,逐渐降低。

知识受众

知识受到领域限制,了解的人逐渐增多,本领域逐渐饱和。知识受众越多,知识使用越多。

相关知识点

随着知识被接受,会推理或者发现与其他知识的关系,形成新的知识,相关知识点越多,知识使用越多。

知识的价值

知识使用次数和知识单价形成知识的价值。

知识的累积价值

由于知识的一惯性,知识具有累积价值。

语义网的三个内涵和价值传播模型提出了三层次的“分布”需求:每个知识点和知识联系由贡献者(可以是人工智能)提供,这些贡献者表现出“分布”的形态。

1.3 联邦知识图谱众包

综上所述,知识是有价值的,知识的生产、交换和消费必定形成社区和群体的交易和协作。我们把通过社区和群体的联邦式协作构建的知识图谱称为联邦知识图谱(Federated Knowledge Graph)。

联邦知识图谱因为需要构架在一个分散并可能去中心化的分布式网络上,必定面临激励、确权、溯责、信任和隐私等诸多问题。而现有集中式的知识图谱构建平台不考虑不同单位和部门的权力、责任和利益,也就无法激励知识的共享互联,也无法保证知识的真实性和时效性。

如图3所示,完整的知识图谱构建和消费需要考虑知识生产、知识传播和知识消费三个层次。知识生产层对应传统的如知识建模、抽取、融合、校验等技术。知识的传播层责需要考虑知识的价值量化、知识确权、知识溯责、知识的可信度量、知识众包的共享激励以及数据的隐私保护。知识消费层包含有搜索问答、推理分析、联邦知识学习,以及流程自动化如RPA等各种需要建立在分散式知识源的系列应用。

图3. 联邦知识图谱技术平台架构


2 知识图谱与区块链

2.1 关于区块链与分布式账本

分布式账本(Distributed Ledger Technology,缩写作 DLT)是一个于多站点﹑多地区或多家机构所组成的网络上进行电子数据复制﹑共享及同步的共识,不存在中心管理员或集中的数据存储。交易记账由分布在不同地方的多个节点共同完成,而且每一个节点记录的是完整的账目,因此它们都可以参与监督交易合法性,同时也可以共同为其作证。

区块链是分布式账本技术的一种。区块链每个节点都按照块链式结构存储完整的数据,并且每个节点的权利和义务相同。区块链以P2P对等网络构成网络层基础架构,以分布式数据库作为物理载体,以分布式时间戳构成区块时序,以共识算法实现数据的一致存储,以密码学协议为链上数据的传输和访问提供安全性、完整性、无法抵赖性的技术支撑,以智能合约的技术为分布式应用提供可扩展的合约编码和一致执行的能力。区块链是点对点通信、数字加密、多方协同共识算法等多个领域的融合技术,具有防篡改、链上数据可溯源(可确权)的特性。

区块链节点独立运营,仅对自己负责,以共识算法达成区块链节点之间的账本一致性。技术运营角度,节点可以“作恶”,但是区块链节点的作恶行为,可以在共识算法的容错范围之内被识别出来的;商业运营角度,节点以个体利益最大化为原则同其他节点进行协同工作,有意愿监督网络中其他节点的作恶行为,而作恶行为的代价高于破坏带来的可能收益,从而达成“防篡改”的效果。这是一个 “竞争性协同”的技术环境。因此,在共识容错范围之内,区块链技术提供无需信任担保的 “信任”基础设施。

简而言之,区块链提供事务和数据可信的确权和防篡改能力。基于区块链的系统结构可以表述为:以中心化技术提供高性能的业务实现,以多中心化区块链网络支持可信的基础设施,提供分布式的去中介化的实用场景。

由于本文仅仅使用到部分区块链相关技术,限于篇幅,本文不对区块链及分布式账本技术做详细介绍。更多技术细节请参考相关书籍。

图4. 不同类型的分布式网络架构

2.2 链上知识:知识的区块链

如前文所述,知识是有价值的,要解决知识生产和消费闭环中的价值量化、确权、溯源及可信度量等问题,就需要让知识上链,通过构建面向知识的区块链来解决诸多问题。具体而言,区块链之于知识有如下几个方面的价值:

  • 利用区块链技术进行知识数据的保护,在知识构建和使用的过程中,采用了多种数据密码算法,保证了数据的隐私和安全,同时基于分布式账本特点,在区块链网络中多个节点保留完整的知识数据和索引,避免了知识的丢失和破坏;
  • 利用区块链技术进行信息公开,基于分布式账本实现联邦知识图谱各参与方的知识同步和一致性确权,且区块链具有防篡改、可追溯的特点,保证了公开数据的真实可信;
  • 利用区块链技术防止知识和所有权造假,基于区块链防篡改的特性,避免未经共识的知识上链或任意一方对已上链的数据进行随意篡改,也对伪造所有权的行为提供完整的证据链;
  • 利用区块链技术进行知识确权,可利用区块链上交易不可抵赖性特点,对知识联邦业务中产生的交易或数据进行签名,从而保证了知识确权;
  • 利用区块链技术解决过程追溯问题,可利用区块链上交易可追溯特点,对知识联邦中知识的构建、发展、使用等场景进行全过程追溯;
  • 利用区块链技术进行身份认证,可以基于分布式身份的特性,对知识联邦中涉及的人、机构、设备等实体进行身份标识和身份验证,保证参与实体的身份真实可信;
  • 利用区块链技术解决多方协同问题,在分布式账本保证知识数据实时同步的基础上,基于智能合约进行知识联邦中各参与方的流程响应及协同过程的记录和贡献的确权贡献的确权。

2.3 开放知识图谱与区块链

相比起企业内部的多部门协同知识图谱构建,开放领域知识的构建更加体现群体、社区等社会属性。同样的,开放知识图谱的构建过程,也是一个由知识贡献、知识组织方式、知识使用组成的迭代过程。因此,构建开放的知识图谱也需要一个可信的协同框架,能够给出解决方案并支持持续的迭代和发展:开放的知识贡献方式、开放的分布式知识组织结构、开放的知识管理和使用模型。相较于单一企业内部知识图谱众包解决方案,这个开放的协同框架需要解决更多参与方的相关问题:

  • 识别更多的个体角色、避免开放知识寡头化:识别相同实体以不同角色参与协同的工作,明确不同角色对开放知识网络的贡献;进一步的,开放知识贡献者数据自主管理,避免数据集中导致的未经授权的滥用;
  • 支持更分散的信任源、更可控的资质反馈和校准:针对不同领域的领域专家的资质认定,细化粒度,已快速达成庞大开放知识网络中的局部一致性;进一步的,通过专家贡献的评审和反馈,调整资质认定的等级,反过来校准更多源、更细粒度的量化评估方案;
  • 量化众多参与者的贡献、追踪开放知识的价值并根据反馈调整知识价值模型的能力:开放的框架需要实际参与人的贡献,需要贡献的量化和评估工具,对于贡献的量化也体系出知识的价值;进一步的,根据开放知识在使用中的价值变化,也可以进一步修正量化模型。

区块链与分布式账本相关技术可以解决上述问题:多中心化区块链网络提供可信的基础设施,全程跟踪开放知识发展的过程并保证数据确权;去中介化身份体系支持多维信任源和分布式数据令牌的管理;区块链的分布式通证方案从技术上支持知识点的资产化,体现了开放知识的价值和开放知识的分布式组织形式。利用分布式账本技术,开放知识的产生、发展、推演都被记录下来,开放知识的价值和相关性都可以进行分析,而开放知识的确权也可以完整的记录下来,同时所有基于开放知识图谱构建的应用都基于引用。利用基于区块链技术构建开放知识图谱,解决了开放知识价值的认定、开放知识贡献的确权、开放知识传播和开放知识关系的分布式组织方式。

3 OpenKG上链:链上的知识图谱

3.1 OpenKG上链架构

OpenKG旨在构建以中文为基础的开放域知识图谱共享平台,同时促进知识图谱算法模型和工具的开源开放以及知识图谱技术的普及应用。OpenKG旗下包括多个子项目和资源网站,如:

  • 开放资源共享平台OpenKG: openkg.cn ,主要汇聚开放数据集及工具集等粗粒度的开放资源。
  • 中文开放知识图谱cnSchema:cnschema.org ,主要提供众包实现的开放知识图谱Schema。
  • 中文开放知识图谱众包平台OpenBase:openbase.openkg.cn ,主要定位于细粒度三元组级别的知识图谱众包平台。

经过近一年努力,OpenKG完成了基础区块链平台的搭建与测试工作,以及OpenKG数据集、工具集和Openbase细粒度知识的上链测试。目前,通过OpenKG发布的开放图谱和开源工具,以及通过Openbase众包采集的三元组,OpenKG都在链上进行存证记录操作,并计算和分配产生的荣誉值。需要特别说明的是:考虑到性能的约束及必要性,目前仅实施了对知识图谱的操作(上传、审核、编辑、搜索、下载、查询等)的上链,知识图谱数据本身并未进行上链存储。

在这个测试平台中,已经包含超过1033位确权的知识贡献者,上链测试的两个月日均价值点亮峰值达10691次,总计点亮和链上存证次数超过55万次,并首次测试实现了实体/三元组粒度的知识确权。

OpenKG区块链网络初始节点目前暂定为七个,交付给不同的大学或企业机构来运营,这个七个节点相互独立,构成多中心的OpenKG区块链基础架构,通过共识机制同步OpenKG分布式账本,共同提供分布式的可信基础设施。未来根据需要逐步扩增更多的核心节点。

后续章节将详细介绍OpenKG上链的具体实践过程及成果。

图5. OpenKG整体上链架构


图6. OpenKG 5月点亮次数统计

3.2 开放知识的价值模型

OpenKG上链所需要解决的第一个问题即:知识的价值度量。由于知识图谱的特点,在对知识图谱的价值进行度量计算时需要具体到三元组级别,因此我们需要设计细粒度的知识价值度量模型。其次,由于OpenKG采用社区众包的形式汇聚知识,我们还需要设计合理的荣誉度量模型对知识贡献者的贡献价值进行度量。

OpenKG基于知识的价值模型进行初始的价值模型设置,知识的单位使用的价值根据知识使用(知识受众和相关知识点的迭代使用)进行评估,进一步将评估的结果作为知识贡献者进行贡献计量的计算依据。

3.2.1 K-Point:知识价值度量

OpenKG设计了K-Point (Knowledge Point)合约以体现知识价值。OpenKG对于知识价值的评估基于简单模型,如:每次知识被使用即为知识追加Knowledge Point。随着知识使用场景的增多,OpenKG会持续使用一些可学习的算法,针对不同领域的知识点价值评估模型进行校准和优化调整;

在实际应用过程中,对于知识价值预期和知识使用预期需要进行持续的校准。在起始情况,使用简单卡方分布进行拟合,并且使用简单模型进行拟合。

在不考虑知识应用相互关联的情况下,

K 为单个知识点,得到:

为第 n 天知识使用次数,知识点价值周期为 t(天),则第 n 天知识校准单价为:

知识每次使用,对应知识单价会对知识点进行加权。

3.2.2 OpenKG Token:荣誉值度量

OpenKG设计了OpenKG-Token合约,从知识贡献价值衡量的角度,颁发给知识点贡献者(发布者、审阅者、修改者),作为凭证。OpenKG-Token根据根据知识使用时的知识价值度量,按照知识贡献进行分配,代表知识贡献者的权益。起始情况下,价值会均分给知识贡献者,

后续会考虑根据贡献权重进行知识贡献的记录。

OpenKG-Token荣誉值度量可以应用在更多的知识使用场景中。比如,在OpenKG知识联邦中通过OpenKG-Token交换合约交换知识点使用权。

荣誉值总量满足如下关系:

起始情况下,

3.3. OpenKG区块链的技术实现

图7. OpenKG上链模型

3.3.1 OpenKG上链基本技术架构

OpenKG.CN是OpenKG开放资源共享平台,用户可以在该平台自由地贡献和下载各种类别的资源,因为平台上的各种资源组织形式差异较大,所以基本的数据单元定义为一条资源(一个指向真实数据的链接或一个包含具体数据的文件),而不是一个三元组。OpenKG.CN平台目前支持三种区块链操作,分别是:用户注册、资源注册和资源下载。

图8. 上链基本技术架构

在可信基础设施层面,OpenKG区块链采用VBFT共识算法,在传统BFT算法的基础上,引入"VRF(可验证随机函数)",提高了共识算法的抗攻击能力的同时,提升了共识速度;本体网络采用WasmJIT技术作为智能合约执行环境,目前执行效率在业界是最高的;本体网络提供了分片和Layer2的技术,为兼顾链上业务性能和区块链网络扩容方案。

在联邦知识图谱和业务应用层面,以分布式(去中介化)身份标识协议(ONT ID)识别知识点、知识关系、知识贡献者和知识使用者,以分布式资源交互框架(DDXF)管理和追踪知识发展和实用全过程,以跨系统互操作协议支持知识在不同系统中的业务服务。

其中,关于账户与数据标识,OpenKG区块链使用非对称密码学算法来作为区块链账本数据和所有者之间物权关系的证明。OpenKG支持用户私钥的代理托管服务,保证用户的互联网用户体验。对于个人隐私有诉求的用户,也可以方便的使用自己的公私钥对取回个人的知识贡献并确权。ONT ID将被用作OpenKG知识生成、使用场景的各类系统和区块链节点中的分布式身份标识。基于ONT ID可以为标识指代实体签发可验证凭证,可验证凭证支持多维认证,可以接入不同的身份信任源。分布式身份标识、多维度的可验证凭证,为知识的不同使用场景提供了可信的账户体系和风控模型。

通过OpenKG的分布式数字身份体系,支持用户个人数据贡献的链上资质认定、确权和实际使用的逻辑。任意知识使用场景可以自主开发应用平台,通过分布式身份标识的可验证凭证对用户资质进行校验,方便知识贡献并为知识使用者提供知识服务。

进一步的,OpengKG将知识数据的权限令牌和链上标识的数据data-token结合起来,在使用区块链防篡改、可追溯、去中介确权等特性的基础上,仍然支持中心化的知识服务提供,满足知识使用场景的高效率需求。

图9. OpenKG的数据权限管理模型

3.3.2 OpenKG中的知识确权

OpenKG的联邦式知识图谱构造和使用过程中,涉及知识所有、整理、加工、查看、使用等多种权限。结合开放性知识图谱中不同知识数据的粒度,如数据集、实例、Triple三元组等,需要支持对应不同粒度知识的确权。OpenKG区块链使用分布式身份和token方案为多个知识系统提供跨系统协同的账户、数据和权限管理。

首先,OpenKG 数据持有ONT ID,不同系统中数据的标识唯一,因此支持跨系统知识的标识识别。进一步的,针对不同的知识使用场景,知识所有者、贡献者可以主动创建知识权限令牌,并且整个授权过程上链,因此令牌使用过程中,确权安全可信。

同时,OpenKG 用户持有ONT ID,可以在不同系统不同知识使用场景中识别同一用户,并且可以跨系统追溯到知识贡献者,保证使用过程的溯源。

如下图所示,知识确权的具体实现细节具体体现在:

  • 数据和用户实体具有ONT ID;
  • 针对不同知识使用场景,不同知识的增删改查操作通过链外令牌管理;
  • 每一个链外知识数据权限令牌对应一个链上数据Token,即:OpenKG的 data-token;
  • 使用链上data-token和ONT ID的物权关系进行跨系统的令牌确权;
  • 通过链上data-token和链外系统令牌的绑定关系进行操作的鉴权,最终满足可信的跨系统知识使用场景。
图10. OpenKG的知识确权模型

3.3.3 OpenKG的知识溯源

OpenKG通过知识贡献者的ONT ID管理知识ONT ID,支持OpenKG的知识应用场景中方便的创建使用令牌,进一步支持跨系统的使用确权。新知识绑定新的ONT ID,根据现有知识推导出的新知识的过程以区块链交易的形式在链上记录下来,并通过区块链智能合约交易的形式自动构造ONT ID。所有知识的创建和加工过程都以链上交易的形式保留在链上,知识的标识在OpenKG的多个系统中保证唯一,因此支持知识溯源。

图11. 知识溯源过程

3.3.4 OpenKG的可信度量

OpenKG从三个层次提供可信度量:

  • 基础设施层面:OpenKG区块链的网络规模和节点分布程度为基础可信提供背书;
  • 知识质量层面:知识质量通过知识价值体现,知识价值通过知识的使用体现。OpenKG根据知识领域和知识使用行为分析获得知识价值量化的方案,并在量化反馈的过程中持续迭代修正。知识使用的过程在链上有记录,防篡改、可追溯,可以为数据的真实性和一致性提供信任背书;
  • 知识贡献者和使用者层面:由于所有的行为都在链上记录并可追溯,贡献者或使用者行为的分析和知识质量的结果可以作为贡献者或使用者的可信背书。值得一提的是,区块链并不能甄别作恶数据,但是系统外能够提供作恶行为的证明并且永久有效,反过来影响贡献者或使用者的贡献度。


3.3.5 OpenKG区块链启动方案

OpenKG区块链网络初始节点目前暂定为七个,交付给不同实体运营。对于用户来讲,可以通过知识索引从不同的实体数据库中查看知识对象。

OpenKG实现令牌token化合约,解决链外知识的数据实体识别和链外令牌链上确权的问题,链上对知识token使用的过程进行记录保证操作过程完整性的同时保证可追溯。OpenKG支持知识贡献者对于知识数据自主管理,支持知识的安全多方应用,在知识隐私保护的前提下,支持多方知识协作和使用。

OpenKG区块链的启动为OpenKG的知识场景提供可信支持,包括:

  • 知识索引(资源同步);
  • 知识使用(上链记录、保证安全使用和安全交换等);
  • 知识加工(新增、审计、修改、废除);
  • 知识溯源(根据联盟链历史索查每一个知识点的来源)。

3.4 OpenKG.CN上链实践:开放数据集与工具集上链

3.4.1 OpenKG.CN简介

OpenKG.CN是OpenKG开放资源共享平台,用户可以在该平台自由地贡献和下载各种类别的资源,因为平台上的各种资源组织形式差异较大,所以基本的数据单元定义为一条资源(一个指向真实数据的链接或一个包含具体数据的文件)。OpenKG.CN平台目前支持三种区块链操作,分别是:用户注册、资源注册和资源下载。在OpenKG.CN中,总共包含800余位确权用户。

图12. OpenKG主站OpenKG.CN:开放图谱数据集及工具集

3.4.2 资源注册与上链

1)用户注册上链:当使用者在OpenKG.CN注册网站用户时,系统同步完成用户信息在区块链服务器中的注册,生成一个链上账户作为其他操作的主体,如图13所示。

图13. OpenKG.CN用户上链

2)资源注册上链:使用者在OpenKG.CN注册用户并通过审核后即可向平台上传资源,对于每一条资源,用户上传的同时系统也会自动根据用户ID以及资源ID在区块链服务器完成该条资源的注册(此时并不会生成荣誉值),如图14所示。

图14. OpenKG.cn资源注册上链

3.4.3 资源的价值点亮

1)资源下载点亮:当用户上传的资源被其他用户下载使用时系统会根据资源ID生成相应的荣誉值并将其分配给资源上传者的账户,如图15所示。

图15. OpenKG.CN资源下载点亮

3.5 OpenBase上链实践:细粒度知识的上链

3.5.1 OpenBase简介

为了解决细粒度的知识图谱的众包构建和查错补全这类问题,OpenBase能够同时兼顾知识图谱的构建成本、速度的方法,由机器来帮助构建,并且由人来审核和修改。针对已有的知识图谱,OpenBase为众包人员构建一个统一的众包平台,实现知识图谱的查错审核等任务,如图16所示。

图16. OpenBase平台流程

同时传统的知识图谱众包平台也无法完全解决用户的互相信任性问题。受到区块链思想的启发,经过改造之后的OpenBase网页端平台尝试解决这样的问题。该系统是经过区块链技术改造,以分布式账本的思想,对细粒度的知识赋予价值,并且可回溯知识的操作过程。

图17. OpenBase上链功能示意

OpenBase上链之后,如图17所示,用户的操作诸如数据审核、数据访问(搜索、问答等)、数据下载等都会生成相关的荣誉值;用户所有对数据的操作动作,也就是账本信息,也会被记录到区块链上。

在本次的平台中,将有新冠科研、新冠健康等数个知识图谱的众包过程将被记录到区块链中。每一个知识图谱的贡献者都会被记录到链上。用户在注册的时候,OpenBase通过接口与链端进行关联;登入OpenBase系统后,一系列的操作会被传入到链端,但是访问数据不会对访问者奖励荣誉值,只会对原来数据的贡献者奖励。

在数据审核验收阶段,荣誉值将会被复制分配为多份,均分给多个审核者、验收者以及原来的贡献人,但是数据所有者还是原来的贡献人。与此做对比的是,数据编辑的接口中,当一个用户修改编辑数据之后,将和原来的贡献者一起都成为这条数据的所有者。

对于数据的访问(搜索、问答等)将被视为一种点亮操作,该操作会产生荣誉值给数据集的贡献者;对数据进行编辑时,编辑者将与原贡献者均分对于数据的所有权;下载数据集同样会产生荣誉值,分为给数据贡献者;新增实体以及属性的操作会被当作新的数据的注册过程,操作者成为新数据的所有者。

在OpenBase中,总共包含约200位确权用户。

3.5.2 细粒度知识上链

1)用户注册:当使用者在OpenBase注册网站用户时,系统会同步完成用户信息在区块链服务器中的注册,生成一个链上的账户作为其他操作的主体。

2)数据编辑与新增:当使用者对数据进行编辑的时候,系统会同步完成数据信息在区块链服务器中的更新;新增数据条目的时候,新增的知识会在区块链服务器中进行注册;如图18所示。

图18. OpenBase数据编辑与新增

3.5.3 细粒度的知识点亮

1)数据搜索与问答:当使用者对数据进行搜索与问答的时候,对应的知识会被点亮,同时生成一定数量的荣誉值。如图19所示。

图19. OpenBase数据搜索以及问答点亮

2)数据下载点亮:当使用者下载数据集,也会生成一定数量的荣誉值,用以奖励数据贡献者。如图20所示。

图20. OpenBase数据下载

3)数据审核验收点亮:当用户对数据进行审核验收时,审核者、验收者、贡献者会被奖励一定数量的荣誉值。如图21所示。

图21. OpenBase数据审核

4 总结与展望

知识是有价值的,知识之间建立关联可以进一步增加知识的价值。知识图谱的价值联邦既包含知识的贡献者,也包含知识的使用者。知识贡献和知识使用的过程逐渐丰满知识网络,体现了知识图谱的价值传播模型。同时,知识在使用和传播过程中,价值被不断点亮,知识的价值被动态评估,知识的贡献者得到合理的价值计算。这一过程对知识的确权、溯源、防篡改、鉴别虚假知识、对知识进行可信度量等多个方面都提出了新的要求。

OpenKG在这个方向上做了一些粗浅的尝试,我们希望为各个企业或机构建立自己的企业级知识图谱众包平台提供有价值的参考。在实践过程中,我们发现区块链尽管为解决前面所提出一些问题提供了新的思路,但并不能解决所有的问题,并且在实施知识图谱上链过程中,依然面临非常多的挑战,如细粒度的知识确权所带来的性能问题、大规模细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题、知识众包的合理激励模型及可信度量模型等等,这些都还没有较为成熟的解决方案。

此外,OpenKG目前还仅实现了数据集、工具集、三元组知识的初步上链,知识点亮的方式主要集中于下载和搜索。后续还将推动Schema、Bots、知识图谱算法等方面的上链实践工作,并探索智能问答、去中心化推理、联邦知识学习等更为丰富知识点亮模式。

5. 致谢

以下志愿者参与了OpenKG区块链的实施及相关工作,他们包括来自浙江大学的杨帆、毕祯、叶宏彬、吴杨、余海阳、张宁豫;来自Onchain的李捷、杨少尉、荣怡、司帅帅、徐志强,来自小米科技的戴振、彭茜、刘作鹏等,以及尚艺秋、陈阳、李娟等提供的辅助支持工作。在此一并致以谢意。

发布于 2020-07-05 09:41