开源开放 | 北京大学发布新冠开放知识图谱 SPARQL 访问接口

2020 年 4 月 2 日 开放知识图谱

本文转载自公众号:图谱学苑。



2020年来,一场突如其来的新冠疫情席卷全球,在全民抗“疫”的关键时刻,OpenKG推出了新冠疫情专题知识图谱数据集,并在此基础上将数据转化成RDF数据,并基于gStore建立了知识图谱系统,为广大科研工作者提供知识服务


    本次在OpenKG所发布的新冠知识图谱数据基础上,将其转化为RDF三元组数据格式并导入gStore图数据库,提供基于云端的Endpoint接口服务;目前用户可以通过SPARQL查询语言进行访问;同时我们正在开发基于关键词等智能化访问接口,供大家学习和研究使用。

    OpenKG开放的新冠知识图谱数据,总共包括8大类共17个知识图谱,分别为新冠科研图谱,新冠百科图谱,新冠健康图谱,新冠临床图谱,新冠英雄图谱,新冠热点事件图谱,新冠流行病学图谱和新冠物资图谱;我们均提供了访问接口和详细的使用手册。


OpenKG :http://openkg.cn/tool/openkg-sparql-api

gStore:http://cloud.gstore.cn


--

01


新冠科研图谱


      科研图谱主要是从病毒分类、病毒基本信息、抗病毒药物、病毒亲缘关系图谱等角度进行科研分析,具体包括四个子图谱:

病毒分类图谱
病毒分类图谱是根据最新ncbi网站内容更新了病毒族系相关的科研基础数据,其中以新冠病毒科为主,主要是对病毒按照门、纲、目、科、属等进行分类分析。

新冠基本信息图谱
 从新冠病毒的基因蛋白,宿主等相关信息出发构图

抗病毒药物图谱
依据抗病毒药物、病毒、病毒相关蛋白和宿主及宿主蛋白间的关系构建图谱

病毒亲缘关系图谱
整理短时间内COVID-19病毒株的变异方向与地理位置分布数据



  • 病毒分类图谱(中文,英文)
    包括中文知识图谱和英文知识图谱,共两个知识图谱(名称为:病毒分类图谱-中文、病毒分类图谱-英文)  
        三元组数量:1934954
        实体数量:205633
        谓语数量:16

  • 新冠基本信息图谱(中文,英文)
    包括中文知识图谱和英文知识图谱,共两个知识图谱(名称为:新冠基本信息图谱-中文、新冠基本信息图谱-英文) 
        三元组数量:2879  
        实体数量:553    
        谓词数量:10

  • 抗病毒药物图谱(中文,英文)

    包括中文知识图谱和英文知识图谱,共两个知识图谱(名称为:病毒药物图谱-中文、病毒药物图谱-英文)

          三元组数量:61796
          实体数量:7999
          谓语数量:2

  • 病毒亲缘关系图谱(中文,英文)

    包括中文知识图谱和英文知识图谱,共两个知识图谱(名称为:病毒亲缘关 系图谱-中文、病毒亲缘关系图谱-英文)

           三元组数量:2237
           实体数量:464
         谓语数量:17(括号里面的为英文谓词)

  • 新冠科研图谱(中文,英文)

    同时我们还将四个子知识图谱进行了合并,合并成了新冠科研图谱(共两个:新冠科研图谱-中文,新冠科研图谱-英文)

           三元组数量:2000928
           实体数量:214400
         谓语数量:57(谓语为四个知识图谱谓语的并集)


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

//示例一: 查询SARS-CoV-2病毒的基因表达信息


 var sparql='select ?x ?y ?y1 where' +      ' {' +      ' ?x <http://www.w3.org/2000/01/rdf-schema#label> "SARS-CoV-2"@en.' +      ' ?x <表达> ?y.' +      ' ?y <http://www.w3.org/2000/01/rdf-schema#label> ?y1.' +      ' }';$.ajax({ url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{     action:'queryDB',     accesskeyid:'08745175bc8c43de8e981706a4c1df6a',     access_secret:'D8B3D8179CD1F857F61BD406F3690CBA',        dbName:'新冠科研图谱-中文',//总共有十个图谱,详情请见上文        sparql:sparql//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)


查询结果


//示例二: 查询可以影响(抑制)Human immunodeficiency virus 1病毒的药品有那些?

var sparql='select ?x ?y ?x1  where' +        ' {' +        '   ?x <影响> ?y.' +        '   ?y <http://www.w3.org/2000/01/rdf-schema#label> "Human immunodeficiency virus 1"@en.' +        '   ?x <http://www.w3.org/2000/01/rdf-schema#label> ?x1.' +        ' }';$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'08745175bc8c43de8e981706a4c1df6a',        access_secret:'D8B3D8179CD1F857F61BD406F3690CBA',        dbName:'新冠科研图谱-中文',//总共有十个图谱,详情请见上文        sparql:sparql//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)


查询结果如图所示


02


新冠百科图谱


       新冠百科(包括病毒、细菌、流行病、传染病等)。一个领域百科KG,这是基础;从各大百科出发,也会涵盖之前几次疫情涉及到的知识点。

       图谱以病毒,细菌为主体,扩展了治疗,疾病相关内容,通过了这些概念的百科知识,形成新冠百科知识图谱。

       潜在应用:面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。
        后续工作中,将从百度百科,互动百科,中文维基百科,医学百科中进一步挖掘病毒,细菌,疾病,医学之间的关系。采用基于本体的信息抽取技术,扩充实体的属性信息。同时,完成与zhishi.me等通用知识图谱的链接。


        实体数量:54419
        关系数量:13
        谓语数量49


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

//示例1. 与肺部有关的传染病有哪些,它们的详细情况?

var sparql='select distinct ?x ?a ?b where{' +        ' ?x <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <疾病>.' +        ' ?x <发病部位> "肺"^^<http://www.w3.org/2001/XMLSchema#string>.' +        ' ?x <传染性>  "有"^^<http://www.w3.org/2001/XMLSchema#string>.' +        ' ?x ?a ?b.' +        ' }'$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'d51e90751a474d369f4d5874cbae5cc6',        access_secret:'387D5AD7DCFD248BF2349FE3F69EC5CA',        dbName:'covid.baike',        sparql:sparql//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)



03


新冠健康图谱


     新冠健康图谱由清华大学和北京妙医佳健康科技联合构建,包含跟新冠肺炎相关的各类疾病、药物、症状、检查、全国各地接收新冠肺炎定点医院等信息。 

      潜在应用:流行病调查研究,基于图谱的新冠肺炎健康防护问答。


        实体数量:7205
        关系数量:13
        谓语数量:   96


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'a68148a1e81611e9abc600163e08435e',        access_secret:'a68148a8e81611e9abc600163e08435e',        dbName:'health',        sparql:''//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)


04


新冠临床图谱


     临床图谱从目前已有的规范文件入手,基于诊疗规范(流行病学+症状+实验室指标+治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园), 将研究进展与科研相关联。
      图谱以新型冠状病毒(COVID-19)为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于图谱进行知识问答。

        实体数量:383
        关系数量:15
        谓语数量:51


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'a68148a1e81611e9abc600163e08435e',        access_secret:'a68148a8e81611e9abc600163e08435e',        dbName:'medical',        sparql:''//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)


05


新冠英雄图谱


   从百度百科、微信公众号、知网、澎湃新闻等获取的抗击疫情期间的部分英雄人物信息,涉及生平事迹和基本属性等,包括123个人物,其中有5位专家人员,27位因公殉职人员,91位医疗队代表人员。图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念。  


        三元组数量:3173个  
        实体数量:1563个    
        谓语数量:46


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'eefd9c54cafa4f229e65a7cab73eb8a6',        access_secret:'AF3F19E64891BA58531DC5D2CAB8E349',        dbName:'character3.0',        sparql:''//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)

06


新冠热点事件图谱


      从人民日报、丁香医生、腾讯、新浪微博抽取的新闻数据,从第一例出发到封城到各地响应等的重大事件脉络及相关时间,与新冠百科、新冠科研、新冠临床、新冠防控、新冠英雄等有所关联,并对新闻中的一些内容进行相关语义标注。支持事件在时间上的正向和反向索引,并提供事件本身发展脉络的枚举。

        三元组数量:2262个    
        实体数量:224个    
        谓语数量:17


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'eefd9c54cafa4f229e65a7cab73eb8a6',        access_secret:'AF3F19E64891BA58531DC5D2CAB8E349',        dbName:'event2.0',        sparql:''//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)


07


新冠流行病学图谱


       新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容。
目前,实例数据尚且不足。


        三元组数量:374个    
        实体数量:240个   
        谓语数量:10


>>>访问方式<<<


采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'1714191195374f938d693e4cc7e42cf7',        access_secret:'205C541B4F6246B776A5CC11658B95B5',        dbName:'流行病',        sparql:''//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)

08


新冠物资图谱


        新冠物资图谱包含防控新型冠状病毒所需要的各类物资,主要包括医用防护装备、日常防护用品、医用诊疗设备以及治疗用药。其中,医用防护装备包含了医用手套、口罩、隔离服等;日常防护用品包含洗手液、消毒用品等;医用诊疗设备包含常规检查设备和氧疗设备;治疗用药包含了《新型冠状病毒感染的肺炎诊疗方案》多个版本中的中、西药品。
实例数据主要涉及部分物资的用途以及相关信息,比如:品牌,产地,使用注意事项以及保存方法等等。

        三元组数量:3634个
        实体数量:364个
        谓语数量:43


>>>访问方式<<<

采用http方式访问,输入参数,请以JSON方式放置在Request Param中,以ajax为例

$.ajax({    url:'http://cloud.gstore.cn/api',    dataType:'json',    data:{        action:'queryDB',        accesskeyid:'1714191195374f938d693e4cc7e42cf7',        access_secret:'205C541B4F6246B776A5CC11658B95B5',        dbName:'物资',        sparql:''//查询SPARQL语句    },    success:function(data,status)    {        //data为json对象,详见http://cloud.gstore.cn/gStoreAPI.html    }    
});

(可左右滑动查看代码)


09


结束语


     本次发布的知识图谱由北京大学王选计算机研究所数据管理实验室邹磊教授团队和武汉大学信息管理学院洪亮老师团队联合构建,为了方便用户使用,我们制作了详细的图谱介绍及使用文档,您只需搜索“图谱学苑”公众号后,在文字输入框中输入“疫情图谱”即可获取相关文档链接,赶快关注吧!(识别下方二维码也可以快速关注图谱学苑公众号哦!)




OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
3

相关内容

SPARQL(读作“sparkle”,SPARQL协议和RDF查询语言的首字母缩写)是一种RDF查询语言,也就是说,它是一种语义查询语言,用于数据库检索和操作以资源描述框架(RDF)格式存储的数据。
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
41+阅读 · 2020年7月2日
专知会员服务
37+阅读 · 2020年6月7日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
73+阅读 · 2020年5月30日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
82+阅读 · 2020年5月2日
计算机视觉用于新冠病毒COVID-19的控制综述,25页pdf
专知会员服务
52+阅读 · 2020年4月22日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
234+阅读 · 2020年4月18日
面向司法案件的案情知识图谱自动构建
专知会员服务
122+阅读 · 2020年4月17日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
102+阅读 · 2019年11月4日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
Github六个知识图谱实战项目推荐
专知
380+阅读 · 2019年6月2日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
Conceptualize and Infer User Needs in E-commerce
Arxiv
3+阅读 · 2019年10月8日
Logic Rules Powered Knowledge Graph Embedding
Arxiv
7+阅读 · 2019年3月9日
Embedding Logical Queries on Knowledge Graphs
Arxiv
3+阅读 · 2019年2月19日
VIP会员
相关VIP内容
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
41+阅读 · 2020年7月2日
专知会员服务
37+阅读 · 2020年6月7日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
73+阅读 · 2020年5月30日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
82+阅读 · 2020年5月2日
计算机视觉用于新冠病毒COVID-19的控制综述,25页pdf
专知会员服务
52+阅读 · 2020年4月22日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
234+阅读 · 2020年4月18日
面向司法案件的案情知识图谱自动构建
专知会员服务
122+阅读 · 2020年4月17日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
102+阅读 · 2019年11月4日
Top
微信扫码咨询专知VIP会员