领域应用 | 中医临床知识图谱的构建与应用

2017 年 12 月 12 日 开放知识图谱 于彤

本文转载自公众号:e医疗。


                                                      

知识图谱是近年来知识管理和知识服务领域中出现的一项新兴技术,它为中医临床知识的关联、整合与分析提供了理想的技术手段。我们基于中医医案等临床知识源,初步建立了由疾病、证候、症状、方剂、中药等核心概念所构成的中医临床知识图谱,以促进中医临床知识的互融互通,揭示中医方证的相关关系,辅助中医临床研究和临床决策。


作者

中国中医科学院中医药信息研究所

于彤 李敬华 朱玲 于琦 田野 孙晓峰 徐丽丽



  中医药学是一门古老的医学,历代医家在数千年的实践中积累了丰富的临床经验,形成了完整的知识体系,产生了海量的临床文献。近年来,国家对中医药事业大力扶持,中医药领域的临床实践和临床研究都取得了长足的发展。中医临床方法在国际社会得到广泛认可,传播到183个国家和地区。


  利用信息技术手段开展中医临床知识的管理和服务是一项开创性的探索,在临床上具有极大的应用价值。近年来,知识图谱(Knowledge Graph)成为知识管理领域中的一项新兴技术,因其简单易学、可扩展性强、支持智能应用等优点而得到广泛应用。它有助于实现临床指南、中医医案以及方剂知识等各类知识的关联与整合,挖掘整理中医临证经验与学术思想,实现智能化、个性化的中医药知识服务,因此在中医临床领域具有广阔的应用前景。




知识图谱技术概述




  知识图谱是以“语义网络(Semantic Network)”为框架构建起来的大型知识库系统。语义网络可被视为一张巨大的图,其中节点表示实体,边则代表实体之间的语义关系。知识图谱在语义网络框架中填充了大量的知识内容。这些知识内容来自数据库、文献库、数据文件等各种数字化资源。知识图谱对分散的知识进行汇集和组织,可以有助于实现知识资源的关联与整合,为解决“知识孤岛”问题提供了理想的技术手段。


  近年来,国内外互联网企业纷纷推出知识图谱以提升服务质量,如:“谷歌知识图谱(Google Knowledge Graph)”、“百度知识图谱”和搜狗的“知立方”等。在学术界,知识图谱的理论和技术也成为一个研究的热点。已有学者在中医药知识图谱构建方法与标准化流程方面进行了尝试和探索[1]。于彤等[2]以中医药学语言系统作为骨架,集成了中医药领域的一系列数据库,初步构建了一个大型的中医药知识图谱,并将其嵌入中医药知识服务平台之中加以利用。阮彤等[3]探索利用文本抽取、关系数据转换以及数据融合等技术,实现中医药知识图谱自动化构建的方法。张德政等[4]提出了基于本体的中医核心知识图谱表示及其构建方法,基于前期建立的“中医基础理论本体”构建了一个中医核心知识图谱。Yuetal.[5]利用中医药领域积累的数字化资源,构建了面向中医养生领域的知识图谱,从而实现术语、文献、数据库等相关知识资源的相互关联和系统组织,促进中医养生知识的共享、传播与利用。这些前期的探索性工作展示出了知识图谱在中医药领域的应用价值,验证了在中医药领域构建大规模知识图谱的可行性,也为进一步构建中医临床知识图谱积累了经验。


  中医临床领域有其自身的特点和需求,需要专门研究中医临床知识建模方法,解决中医临床知识的获取、分类、表达、组织、存储等核心技术问题,采集加工高质量的中医临床知识,才能建立准确、实用、完整的中医临床知识图谱。鉴于此,我们开展了一项中医临床知识图谱构建的专门研究。


  本研究以“证、治、效”为中心,对中医临床领域庞大的知识内容进行系统梳理,初步建立了一个中医临床知识图谱系统。该系统以中医临床领域本体作为骨架,集成了名医经验、临床指南、中医医案、中医文献和方剂知识等多种知识资源,并实现了各类知识点之间的知识关联。知识图谱为中医临床知识体系的系统梳理和深度挖掘提供了新颖的方法,有助于实现中医临床知识的关联、整合与可视化,促进中医临床研究,辅助中医临床决策。




中医临床知识图谱的构建




  中医临床知识是解决中医临床实际过程中特定问题的信息集合。它们主要包括:临床指南、名医经验、中医医案、临床研究、临床术语、古籍和期刊文献资源(包括RCT文献质量评价结果)、中药方剂等等[6]。它们分散于不同的组织机构和信息系统之中,尚未得到有效整合,形成一个个“知识孤岛”,这严重影响了临床应用的效果。


如图1所示,通过由疾病、证候、症状、方剂、中药等核心概念构成的中医临床知识图谱,可在这些“知识孤岛”之间建立联系,增强中医药知识资源的联通性,面向中医药工作者提供临床知识的完整视图。


图1 中医临床知识图谱示意图

*请将手机横屏后观看



  中医临床知识图谱的构建包括如下3个主要步骤。

 

(1)基于领域专家共识,设计中医临床领域的顶层本体,形成业界公认的技术规范。知识工程师们都可依据该规范进行知识图谱加工,所产生的知识图谱互相兼容并能最终融合在一起。


(2)构建目标领域的语义网络,作为知识图谱的骨架。例如,中医临床术语系统(Traditional Chinese Medicine Clinical Terminology System,TCMCTS)就是一个专门面向中医临床的大型语义网络,共收录约11万个概念、27万个术语以及100多万条语义关系[7]。在建立语义网络之后,就可以进行领域知识的填充工作了。


(3)从术语系统、数据库和文本等知识源获取知识,对知识图谱内容进行填充。可将本领域中已有的术语系统和数据库的内容转换为知识图谱,从而避免知识资源的重复建设。针对自由文本,可采用自然语言处理和机器学习等方法,从古今中外的各类中医药文献中自动发现实体和语义关系,以自动或半自动的方式填充知识图谱。


  在中医临床领域,构建知识图谱的一个核心的知识源是中医医案。中医医案是中医临床思维活动和辨证论治过程的记录,是中医理法方药综合应用的具体反映形式[8]。特别是名老中医的医案,对于中医理论和方法的传承具有重要意义。中医临床知识以医案形式分散于文献之中,这不利于知识检索以及临床数据的分析与挖掘。


  近年来,在名老中医经验传承的背景下,中医医案知识库的构建成为学术界的一个热点。例如,中国中医科学院中医药信息研究所研制了中医医案知识服务与共享系统,支持中医专家对医案进行编辑、管理和审校[9]。近期,该系统升级为一个云服务平台,并正式更名为古今医案云平台(www.yiankb.com 点击“阅读原文”可直达链接,提供医案共享和大数据分析等云服务。该系统集成了古代医案库、现代医案库、名医医案库和共享医案库等一系列(半)结构化的医案库,收集医案20余万例,这些医案库中存储着丰富的中医临床知识,具有重要的分析价值。


  从中医医案到知识图谱的知识转换是中医临床知识图谱构建中的核心任我们探索了医案文本语义分析与知识获取的方法,研发了中医医案语义分析与挖掘工具,它实现了医案文本预处理、分词、语义标注、语义检索、医案文本浏览等功能。我们采用这套工具,从中医古代医案中抽取结构化的中医临床知识,填入中医临床知识图谱。所产生的知识图谱主要包括如下信息:名医(如“施今墨”)的擅长疾病、经验方以及弟子等信息;方剂(如“竹叶石膏汤”)的作用、操作方法,以及相关疾病、症状等信息;疾病(如“肺胀”)的临床表现、治疗方法以及相关病症、养生方法、名医等信息;中药(如“杏仁”)所治疗的疾病以及相关方剂、名医等信息。


从知识学的角度分析,中医临床知识从低到高可分为“事实性知识”、“概念性知识”和“策略性知识”等多个层次。


  中医医案属于基础性的“事实型知识”,它直接记录中医临床活动中发生的事实。中医临床知识图谱则属于“概念性知识”,它用于梳理概念体系以及表示概念之间的关系。从医案知识向知识图谱的转换过程,实质上是一个知识抽象和归纳的过程。在这个过程中,一方面要完成知识抽取:对海量医案文本进行分析和标注,从中抽取中医知识;另一方面,要实现知识的结构化表示,也就是从医案文本到结构化知识的转换。在最高层则是问题求解和过程控制所需的“策略性知识”(通常用规则、过程等表示),它们是临床决策支持系统的基础。可见,知识图谱处于中间层,在多维度、多层次、多主题的知识点之间建立关联,在中医临床知识系统中起到重要的“粘合剂”作用。




中医临床知识图谱的应用




  知识图谱有助于对中医临床知识进行分类整理和规范化表达,促进中医临床知识的共享、传播与利用,在临床诊疗、临床研究、教育、培训等方面都具有应用价值。特别是可以将中医临床知识图谱集成到知识服务系统之中,用于改进知识检索、知识问答、决策支持和知识可视化等多种服务的效果,从而提升知识服务能力[10]


如图2所示,知识图谱系统以图形化的方式呈现中医名家、疾病、特色疗法、方药、养生方法等概念之间的相互关系,实现中医临床知识体系可视化。系统提供检索框,用于检索知识图谱中的概念。


图2 中医临床知识图谱界面截图

*可点击查看大图



  图2所示系统还提供辅助知识框,用于提供相关概念知识和医案文本以供参考。使用知识图谱,用户可快速找到与当前研究主题(如症状、证候、体征、疾病、方药等)相关的医案、指南和知识库内容,辅助用户进行决策。系统协助用户在概念层次上浏览中医临床知识,发现概念或知识点之间的潜在联系,从而更好地驾驭复杂的中医药知识体系。


  中医临床知识图谱为我们分析和揭示“证、治、效”之间的相关关系,提供了新颖的理念和方法。证、治、效是中医临床的灵魂,揭示三者之间的关联关系对于提高中医临床疗效具有重要意义。由于中医疗效的判断十分复杂,加入疗效这个因素后,使得三者关系的维度过高,目前的计算机模型很难处理,但我们可以选择验案作为研究方证对应关系的数据资源,因为验案本身都具有良好疗效。可在验案的基础上构建中医临床知识图谱,全面收集中医临床中与“证、治、效”相关的信息,从而再现中医验案中蕴含的相关关系(如方剂与证候的相关关系、症状组合与证候的相关关系、药物组合与方剂的相关关系等),揭示症状组合规律、方剂配伍规律以及基于药物组合和症状组合的方证对应规律等。最后,可将这些相关关系和规律提供给临床医生,作为支持临床决策的参考性依据。


知识图谱是在“大数据”时代背景下出现的一项新颖的知识管理技术。


  在“大数据”时代,不再热衷于寻找因果关系,转而将注意力放在相关关系的发现和使用上。知识图谱从多个维度来描述中医药领域对象,反映中医药事物之间的相关关系,它将是中医药大数据方法学体系中的核心组成部分。


  大数据通过识别有用的关联关系来帮助我们分析一个现象,而不是揭示其内部的运作机制。基于相关关系分析的预测是大数据的核心。中医的思想方法,不是严格的逻辑推理,而是一种关联式的思考。中医会把各种看起来不相关的事物联系起来进行思考,以期达到对天地人生的整体性认识以及宇宙规律的整体性把握。这种理念上的相似性,使得中医药工作者更易接受并使用“大数据”的方法与技术。利用中医临床知识图谱,能够发现中医药概念之间的相关关系,揭示各种临床规律,从而不断完善中医临床知识体系,直接推动中医临床研究的快速发展。


  在本研究中,我们以中医临床领域本体作为骨架,整合相关的结构性知识资源,初步构建了一个中医临床知识图谱。它实现了中医临床核心知识体系的可视化,帮助我们分析中医思维方法,梳理医案中蕴含的知识,研究历代医家的用药规律和治疗方法,发现和总结名老中医经验,梳理中医学术思想的发展源流和脉络,厘清各代表流派的传承关系,研究现代中医临床实践和研究的发展动态。中医医案(特别是古代医案)的知识获取仍是中医临床知识图谱构建中的重点和难点问题。古代医案表述复杂,文本挖掘的难度超出预期。拟进一步深入研究,采用机器学习方法解决上述问题。




参考文献   References



[1]李新龙,刘岩,何丽云,.知识图谱研究概况及其在中医药领域的应用[J].中国中医药信息杂志,2017(7).

[2]于彤,刘静,贾李蓉,.大型中医药知识图谱构建研究[J].中国数字医学,2015,10(3):80-82.

[3]阮彤,孙程琳,王昊奋,.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(4):8-13.

[4]张德政,谢永红,李曼,石川.基于本体的中医知识图谱构建[J].情报工程,2017,3(1):035-042

[5]Tong Yu, Jinghua Li, Qi Yu, et al. Knowledgegraph for TCM health preservation: Design, construction, and applications [J].ArtificialIntelligence in Medicine, 2017, 77:48-52.

[6]李敬华,于彤,李宗友,.中医临床知识库的构建技术研究[J].中国数字医学,2017,12(1):92-93,111.

[7]董燕,李海燕,崔蒙,.中医临床术语系统建设概况与改进措施[J].医学信息学杂志,2014,35(8):43-48.

[8]彭笑艳.基于中医医案的知识库构建[D].北京:北京科技大学,2009.

[9]于琦,李敬华,李宗友,.基于本体的中医医案知识服务与共享系统构建研究[J].中国数字医学,2017,12(5):103-105.

[10]李敬华,李宗友,王映辉,.嵌入式临床智能决策支持系统设计与中医临床知识服务研究[J].中国数字医学,2015,10(7):48-51.





-END-

e医疗原创文章,转载请注明来源

                                                                    

 



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
点赞 0

The potential of graph convolutional neural networks for the task of zero-shot learning has been demonstrated recently. These models are highly sample efficient as related concepts in the graph structure share statistical strength allowing generalization to new classes when faced with a lack of data. However, knowledge from distant nodes can get diluted when propagating through intermediate nodes, because current approaches to zero-shot learning use graph propagation schemes that perform Laplacian smoothing at each layer. We show that extensive smoothing does not help the task of regressing classifier weights in zero-shot learning. In order to still incorporate information from distant nodes and utilize the graph structure, we propose an Attentive Dense Graph Propagation Module (ADGPM). ADGPM allows us to exploit the hierarchical graph structure of the knowledge graph through additional connections. These connections are added based on a node's relationship to its ancestors and descendants and an attention scheme is further used to weigh their contribution depending on the distance to the node. Finally, we illustrate that finetuning of the feature representation after training the ADGPM leads to considerable improvements. Our method achieves competitive results, outperforming previous zero-shot learning approaches.

点赞 0
阅读9+

We consider the problem of zero-shot recognition: learning a visual classifier for a category with zero training examples, just using the word embedding of the category and its relationship to other categories, which visual data are provided. The key to dealing with the unfamiliar or novel category is to transfer knowledge obtained from familiar classes to describe the unfamiliar class. In this paper, we build upon the recently introduced Graph Convolutional Network (GCN) and propose an approach that uses both semantic embeddings and the categorical relationships to predict the classifiers. Given a learned knowledge graph (KG), our approach takes as input semantic embeddings for each node (representing visual category). After a series of graph convolutions, we predict the visual classifier for each category. During training, the visual classifiers for a few categories are given to learn the GCN parameters. At test time, these filters are used to predict the visual classifiers of unseen categories. We show that our approach is robust to noise in the KG. More importantly, our approach provides significant improvement in performance compared to the current state-of-the-art results (from 2 ~ 3% on some metrics to whopping 20% on a few).

点赞 0
阅读8+
小贴士
Top