博士,GDM@FUDAN负责人。于2009年获得复旦大学计算软件理论博士学位。复旦大学计算机学院教授、博导、青年973科学家、上海市互联网大数据工程中心执行副主任、上海市数据科学重点实验室知识图谱研究室主任、省部级重点实验室或工程中心专家委员、上市公司等规模企业高级技术顾问或首席科学家。主要研究兴趣包括:大数据管理与挖掘、图数据库、知识图谱等。曾访问美国贝勒医学院人类基因组测序中心从事海量基因序列数据管理研究,受到微软“铸星计划”支持访问微软亚洲研究院从事十亿规模大图数据管理和知识图谱的研究工作。曾获得中国计算机学会2010年度优秀博士论文提名奖、教育部高校科研成果二等奖、CCF2014自然科学二等奖、ACM(CCF)上海杰出青年科学家提名奖。作为负责人承担30多项各类国家课题与企业课题,受到国家自然科学基金委员会、科技部、教育部、发改委、上海市科委、上海市经信委、微软、IBM、中国电信、百度、华为等相关机构的资助。至今已经在相关领域顶级、知名国际期刊与会议发表论文70多篇,其中包括TKDE, Physical Review E, Plos One, Pattern Recognition; SIGMOD, VLDB, ICDE, IJCAI, AAAI, ICSE, OOPSLA, WWW, EMNLP, EDBT, ICDM, ECML/PKDD, SDM, ICWS, ICSM, CIKM。担任SCI期刊Frontier of Computer Science青年副主编,长期担任众多国际顶级与知名学术会议的程序委员会委员,包括IJCAI,SIGKDD, ICDE, WWW, CIKM, ICDM, COLING,SDM等等;常年担任包括科技部、教育部、国家自然科学基金、省级自然科学基金与政府专项基金以及各类获奖项目、人才奖项的评审专家;常年担任国际知名学术期刊Plos One, IEEE Tansaction on Computers, TKDE, KIS, WWW Journal, JCST, Physica A, IEEE Intelligent System, BMC Bioinformatic, Distributed and Parallel Database等评审人。是ACM、IEEE、AAAI会员和CCF高级会员。领导团队构建国内首个知识库云服务平台(知识工场平台kw.fudan.edu.cn)。该平台目前已经服务相关企业近8亿次API调用。

VIP内容

知识图谱在很多的真实的应用中都起着重要的作用,比如语义搜索、智能问答、文本理解等。通用知识图谱构建中最重要的数据源之一是百科类网站,比如维基百科、百 度百科等。如英文知识图谱 Freebase 最主要的数据源即是维基百科,大型中文通用知识图谱 CN-DBpedia 主要的数据源是百度百科、互动百科等中文类百科网站。知识图 谱相当于是现实世界的知识集合,这些知识并不是恒定不变的而是不断变化的,没有及时更新的知识图谱无法及时地捕获到已经变化的知识以及新出现的知识,而其数据源 百科类网站可以很及时的覆盖新的知识和变化的知识。一个未能及时更新的知识图谱会包含一些过时的知识、甚至是错误的知识,这会对知识图谱的下层应用的产生很大的 限制。因而一个很重要的问题就是如何对知识图谱进行更新,也就是使得知识图谱和其数据源进行同步,这里的数据源只考虑百科类网站。

对于大部分的知识图谱所采用的更新方式周期性批量更新,这种更新方式会有很多的弊端。其中一个弊端是在进行更新时的代价较大,百科类的网站通常会包含千万级别的实体,在每次周期批量更新时会花费大量的时间代价,以及会占用大量的网络带宽。另一个主要的弊端是在周期性更新的周期内,会不断有新知识的出现以及一些变化的知识,也就是周期性的更新方式也会导致知识图谱中包含一些过时的知识。为了解决以上两个问题,本文提出了智能知识图谱更新系统 S-USB,一个更加智能的知识图谱更新方案。

本文提出的智能知识图谱更新系统 S-USB 可以智能的识别出已发生变化的实体并仅更新这些实体。S-USB 的核心部分是一个实体更新频率预测器用于预测实体的更新频率,该实体更新频率预测器主要包括一系列高效的特征和回归器。我们做了一系列实验去检测本文提出的知识图谱智能更新系统 S-USB 以及实体更新频率预测器的效果,实验结果表明本文所提出的知识图谱更新系统 S-USB 可以有效地识别出变化的实体和新出现的实体。特别的,本文所提出的知识图谱智能更新系统已经在一些知识图谱中得到应用落地,其中包括最大中文知识图谱系统 CN-DBpedia。

本文的主要创新点主要有以下几点:

    1. 智能更新系统:本文针对知识图谱的更新问题创新性地提出了智能主动知识图谱更新系统 S-USB,以较小的代价保持知识图谱时效性。
    1. 实体更新频率预测器:本文提出一种实体更新频率预测模型,其中包含了一系列高效的特征和回归器,该预测器可以有效的提高更新系统的准确率。
    1. 更新系统应用落地:本文将智能更新系统已经应用到真实的知识图谱的更新中,有效地提高了知识图谱的时效性,并且可以使得比较热门的实体的知识总是处于最新的状态。
成为VIP会员查看完整内容
知识图谱更新技术研究及其应用.pdf
0
41
Top