读书报告 | CN-DBpedia: A Chinese Knowledge Extraction System

2018 年 1 月 4 日 科技创新与创业 李浩然



论文信息

CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System

作者:Bo Xu1, Yong Xu1, Jiaqing Liang1,2, Chenhao Xie1,2, Bin Liang1, Wanyun Cui1, and Yanghua Xiao

学校:复旦大学

简介

这篇论文利用现存的英文知识图谱DBpedia,提出了一种不需要过多人力参与的框架,来从百度百科等中文百科中构建中文知识图谱。 
其中比较关键的两个步骤:1.对于实体进行类型推断 2.从文本中抽取关系

框架

  1. 抽取:包括爬取网页,解析网页,抽取结构化的信息

  2. 归一化:对于表达相同概念的属性和属性值进行归一化

  3. 补充:进行跨语言的实体链接和实体类型推断

  4. 改正:1.基于规则的改正(如要求主谓语的类型匹配)。2.基于用户反馈

  5. 更新:基于当前网络中的热点对知识图谱进行动态更新

类型推断

类型推断是实体在知识图谱中的重要语义信息,需要应用都需要用到这个信息。传统的方法依赖大量的标注数据,而本论文利用DBpedia来自动构造一个可用的标注数据。

步骤:

  1. 依据DBpedia中的实体和中文实体的名字的完全匹配,找到一些匹配的实体对。那么DBpedia中的实体类型就可以赋予给对应的中文实体。

  2. 依据以下特征训练一个多类分类器。

  • 中文实体的种类(歌手,演员)

  • 实体属性(职业)

  • 实体属性和属性的值(职业——演员)

关系抽取

使用中文实体的infobox信息作为distant supervision的已知知识,对每种关系单独训练一个宾语抽取器。使用的模型是BI-LSTM。 distant supervision: 若三元组⟨Leonardo DiCaprio, BirthPlace, Hollywood⟩出现在Leonardo DiCaprio的infobox中,那么就可以标注句子... DiCaprio was born in Hollywood, California, the only child of ...中的Hollywood和California是BirthPlace的宾语。

总结

这篇论文提出的利用现有的英文源知识图谱构建中文知识图谱的方法是可以借鉴的。但是论文对其中比较重要的归一化是如何做的并没有说明。我在他们开放的API网站进行搜索,但是搜索到的实体关系都是在百度的infobox中可以找到的。


作者:李浩然,北京大学在读硕士。

登录查看更多
19

相关内容

DBpedia 是一个很特殊的语义网应用范例,它从维基百科(Wikipedia)的词条里撷取出结构化的资料,以强化维基百科的搜寻功能,并将其他资料集连结至维基百科。
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
41+阅读 · 2020年7月2日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
25+阅读 · 2018年11月1日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
基于Wikipedia知识源的开放领域问答系统(读书报告)
科技创新与创业
9+阅读 · 2017年11月7日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
30+阅读 · 2017年9月15日
徐波 | 百科知识图谱构建
开放知识图谱
12+阅读 · 2017年9月11日
Arxiv
99+阅读 · 2020年3月4日
Arxiv
3+阅读 · 2019年3月1日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
41+阅读 · 2020年7月2日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
相关资讯
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
25+阅读 · 2018年11月1日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
基于Wikipedia知识源的开放领域问答系统(读书报告)
科技创新与创业
9+阅读 · 2017年11月7日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
30+阅读 · 2017年9月15日
徐波 | 百科知识图谱构建
开放知识图谱
12+阅读 · 2017年9月11日
Top
微信扫码咨询专知VIP会员