报名 | 知识图谱前沿技术课程(苏州大学站)

2017 年 11 月 27 日 PaperWeekly 知识工场

知识图谱表达了各类实体、概念及其之间的各种语义关系,成为了大数据时代知识表示的主要形态之一。知识图谱是目前人工智能领域的一个重要支撑,已经在诸如智能问答、搜索、推荐等具体领域得到很好的应用。


苏州大学先进数据分析研究中心是2013年7月成立的苏州大学校级研究中心。现有教授3人,副教授5人,重点从事大数据和高性能海量实时数据分析研究,专注于数据库、信息检索、智能分析、数据质量管理、云计算与信息服务等方向的研发工作,目前正在开展对知识图谱构建、精化和应用等各方面的研究。

 

为此举办此次知识图谱前沿技术课程,邀请了复旦大学、中科院软件所、北京大学、华东师范大学、苏州大学等高校著名学者,及腾讯、中兴通讯、智言科技等业界领先企业代表,共济一堂,开堂授课,交流研讨。旨在集中展示知识图谱的当前在学术界和工业界的进展,讨论现有主要问题,为下一步知识图谱方向的研究工作做好规划。欢迎广大师生、研究人员参与。


活动时间

   

12月02日(周六)

9:00 - 17:30


活动地点


苏州大学本部(姑苏区干将路333号)敬贤堂


乘出租车请在干将东路333号苏州大学校本部北门下车,进入时告知保安参加本次会议。或者搭乘地铁1号线从相门站1号口出右转,步行至会场。



报名方式


本课程不收取任何费用,与会人员食宿自理。为更好为大家提供服务,需在线报名,并在与会时签到。请点击「阅读原文」进行报名。


日程安排



讲者简介

1

组织者简介



李直旭 苏州大学

李直旭,2013年毕业于澳大利亚昆士兰大学,获计算机科学博士学位。现为苏州大学计算机学院特聘副教授,硕导,江苏省“双创”博士入选者。研究方向为数据质量,众包技术和知识图谱。现为CCF数据库专委会通讯委员,人工智能学会智能服务专委会委员。IEEE TKDE, WWWJ等期刊长期审稿人,已发表论文50余篇。


2


报告人简介



肖仰华 复旦大学


肖仰华博士,复旦大学计算机学院副教授、博导,复旦大学知识工场实验室创始人、负责人,上海市互联网大数据工程技术中心副主任,兼任多家规模企业高级顾问或首席科学家。主要研究兴趣包括知识图谱、大数据管理与挖掘。在SIGMOD,VLDB, ICDE, IJCAI, AAAI等国际顶级学术会议发表论文100多篇。领导构建国内首个知识库云服务平台(知识工场平台kw.fudan.edu.cn),以API形式对外服务4亿次。


报告题目:大规模概念图谱构建与应用


报告摘要:

概念是人类认知世界的基石,是思维活动借以开展的基本单元。建立概念分类体系,并为数以千万计的实体建立概念图谱,是让机器具备认知能力的至关重要的一步。传统概念分类体系大都由专家手工构建、质量精良,但是构建代价高昂,规模有限。本报告结合知识工场实验研发的大规模英文概念图谱ProbasePlus以及当前最大规模的中文概念图谱CN-Probase,介绍大规模高质量概念图谱的自动化构建方法,并介绍大规模概念图谱的应用场景以及相应的关键技术。




韩先培 中科院软件所

韩先培,博士,中国科学院软件研究所副研究员。主要研究方向是信息抽取、知识库构建、语义计算以及智能问答系统。在ACLSIGIRAAAIEMNLP等重要国际会议发表论文30余篇。韩先培是中国中文信息学会语言与知识计算专业委员会副主任及中国中文信息学会青年工作委员会执行委员。于2016年获得中国中文信息学会汉王青年创新奖一等奖,2017-2019中国科青年人才托举计划。


报告题目:面向知识图谱构建的信息抽取


报告摘要:

语义关系描述了实体及概念之间的关联与交互,是人类知识的核心组成部分。构建知识图谱的核心任务之一是从Web文本中抽取海量的语义关系。同时,每一段有意义的文本都描述了一组实体(时间、地点、人物、事件)以及这些实体相互之间的关联和交互,如何抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。

针对上述任务,本报告将介绍近年来文本语义关系抽取技术上的相关进展,特别关注如何在Web环境下构建一个高性能的语义关系抽取系统。具体内容包括自扩展技术、远距离监督技术、半监督技术和自学习技术。同时本报告也对关系抽取技术在知识图谱和智能问答系统中的作用做一些个人思考。



邹磊 北京大学

邹磊,北京大学计算机科学技术研究所副教授、国家自然科学基金委优秀青年基金项目获得者,北京大学大数据科学研究中心主任助理。目前的主要研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。邹磊及其团队构建了面向海量RDF知识图谱数据(超过100亿三元组规模)的开源图数据库系统。邹磊已经发表了30余篇国内外学术论文,包括数据库领域国际顶级期刊/会议论文(SIGMODVLDB等)近20余篇;其论文被引用超过1200多次(根据Google Scholar的统计),单篇最高被引用298余次。邹磊获得2009年中国计算机学会优秀博士学位论文提名奖和2014年中国计算机学会自然科学二等奖(排名第一)。


报告题目:面向知识图谱的自然语言问答研究


报告摘要:

自然语言问答(QA)是指利用各种技术和数据对用户提出的自然语言问题直接给出问题答案。QA任务根据所依赖的数据形态可以分成三类,分别是基于知识库的问答(KB-QA)、基于文档的问答(DB-QA)和社区问答(C-QA)。本次报告主要关注面向知识图谱的问答系统。知识图谱是目前知识库的一种常见的表达形式,是以图形(Graph)的方式来展现实体、实体属性,以及实体之间的关系。近年来随着大数据,人工智能等概念与技术的兴起,知识图谱和KB-QA相关的研究工作和工业应用逐渐引起重视。例如由Amazon收购的EVI系统(原名为TrueKnowledge[1],就是一种面向开放领域的结构化知识的问答系统。Facebook定义的Facebook Social Graph,用于连接社交网络的用户,用户分享的照片,电影,评论;在所构建的Social Graph基础上,Facebook推出了Graph Search(图搜索)功能,即将用户的自然语言问题,转化为面向Social Graph上的图搜索问题,从而回答用户的自然语言问题。另外越来越多的chatbot(聊天机器人)产品中也引入了面向知识图谱的问答功能,使得chatbot和人交互时用户可以获得更多知识方面的回答。 IBMWatson系统在参加智力问答节目《危险边缘》(Jeopardy)的比赛时,也同样采用DBpediaYago知识图谱数据来回答某些自然语言问题。本次报告主要介绍目前学术界和工业界面向知识图谱问答的主要关键技术和我们组在面向知识图谱的自然语言问答系统方面的工作gAnswer



林欣 华东师范大学

林欣,男,博士,现担任华东师范大学计算机系副教授。目前主要致力于异构大数据管理研究。先后在该领域发表论文30余篇,其中近三年在中国计算机学会推荐的A类顶级期刊TKDEA类会议ICDE发表论文8篇。2011年入选首批“香江学者计划”,赴香港浸会大学从事为期2年的访问研究。2014年回国后入选上海市“浦江人才计划”。现担任SCI杂志《Frontier of Computer Science》青年副主编,担任TKDETPDS等权威学术期刊的审稿人,并多次担任WAIMICPADS等国际会议的PC member


报告题目:知识图谱的众包构建与精化


报告摘要:

知识图谱的构建是知识图谱领域中最受关注,也是最难的问题之一。由于语料来源杂乱不堪、自然语言处理技术存在瓶颈,完全靠机器并不能实现覆盖度和准确率双高。在构建的过程中,加入众包可以实现知识图谱的精化尤其在对计算机难以完成而人较容易完成的任务中,如实体对齐、范式匹配和关系判定等 包可以发挥更大的作用。本次课程从众包的基本原理展开讲授其中若干关键子问题,如众包问题设计、质量控制等。结合知识图谱构建中面临的若干问题,分析各个众包的例子,讨论深智众包的设计原则。




陈文亮 苏州大学

陈文亮是苏州大学计算机科学与技术学院教授。20131月回国加入苏州大学计算机科学与技术学院。2005-2010年在日本国立情报通信研究所担任专家研究员。2011-2012年在新加坡国立信息通讯研究院担任研究科学家。目前担任中国中文信息学会知识与计算专委会委员、中国中文信息学会青年工作委员会委员、江苏省计算机学会青年工作委员会副主任委员、苏州计算机学会理事会秘书长。在研主持江苏省高校自然科学研究重大项目一项、国家自然科学基金一项,大型产业项目一项。主要研究领域包含语言分析、推荐系统、信息抽取、知识图谱。目前主要专注于建设基础语言分析平台和构建知识图谱。


报告题目:基于噪音训练数据的中文信息抽取研究


报告摘要:

中文信息抽取任务面临最大问题是缺乏相应人工标注语料,特别是在一些新领域和新应用里。如何有效利用一些噪音数据用于构建高性能系统成为迫在眉睫的问题。本报告将介绍:1)基于众包噪音数据的中文实体识别。利用苏州大学的自然语言处理任务标注系统(SNAP),普通标注人员可以完成多种实体类别的标注任务。这些众包数据和专家标注相比获取代价较低但存在大量的不一致标注。基于这种众包噪音数据,我们有效地搭建了中文实体识别系统,并在对话和电商领域测试中取得良好效果。2)基于远程监督数据的关系抽取。远程监督通过将知识库用于非结构化文本对齐来自动构建大规模训练数据,从而减轻对人工构建数据的依赖程度。在构建语料过程中,仅仅利用实体名称进行对齐,而不同实体在不同关系下应该具有更加丰富多样的语义表示,因此会造成错误标注等问题。针对该问题,我们提出基于句法上下文的实体表示来丰富实体在不同关系模式下的语义,并结合神经网络模型处理关系抽取任务。



赖坤锋 腾讯


赖坤锋博士,2013年毕业于香港理工大学,当前为腾讯MIG移动浏览产品部自然语言处理团队的负责人。主要研究兴趣包括:自然语言处理,用户画像,以及个性化推荐技术等。曾经在TMM,CIKM,NossDav,以及ICC等国际顶级会议发表文章。



钭伟雨 腾讯


钭伟雨,男,腾讯手机QQ浏览器知识图谱组负责人。2010年加入腾讯,主要专注于海量后台架构设计与开发,知识图谱的构建,包括大型爬虫网络设计,图存储,在线引擎,推理引擎,信息抽取,关系挖掘等。


报告题目:腾讯大规模知识图谱的构建与在自然语言理解中的应用


报告摘要:

知识图谱旨在描述真实世界中存在的各种实体、概念以及它们之间的关联关系,在语义搜索、智能问答、知识发现,个性化推荐等领域得到了广泛应用,随着人工智能技术的发展,知识图谱将扮演着越来越重要的角色。本报告结合腾讯手机QQ浏览器业务,介绍大规模高质量知识图谱的自动化构建方法,图存储及图谱开放平台的搭建,并介绍大规模知识图谱在腾讯手机QQ浏览器资讯业务上的应用。



陈虹 中兴通讯

陈虹,中兴通讯股份有限公司,NLP技术预研高级工程师,认知智能项目经理,长期专注于人工智能、智能问答、知识图谱和NLP等方向的研究,并且在NLP落地产品实际应用有6年以上的丰富项目经验,目前已有多款智能客服、语音助手等产品上线商用;同时也是公司大数据与人工智能委员会专家委员和NLP组组长、公司南京研究院人工智能委员会常务委员,江苏省大数据专委会委员和江苏省人工智能协会会员,发表专利和论文十余篇。


报告题目:Application and thinking of knowledge graph and its variants in industry practice (知识图谱及其“变种”在行业实践中的应用与思考)


报告摘要:知识是人工智能时代的基石,而知识图谱是蕴含人类大量先验知识的宝库,有人将其比喻为“通往强人工智能之路的石油”,可见其不可或缺的地位。知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索;另一方面以图形化方式向用户展示经过分类整理的结构化知识。在数据多维异构、领域模式多样化等现状中,将知识图谱的价值最大化,工业界责无旁贷。

本报告将介绍知识图谱在行业实践中的应用场景,面对不同的场景,现有的知识图谱scheme是否具有普适性?针对特定场景,工业界需要如何“定制”自己的知识图谱,从而形成哪些“变种”?同时知识图谱还有哪些疑难问题是需要学术界和工业界共同探索研究的?




周柳阳 智言科技


周柳阳博士,2014年毕业于香港城市大学,毕业后于某大数据公司负责基于深度学习的语义理解和智能推理的产品化等工作。2016年作为联合创始人成立了智言科技有限公司。智言科技是一家专注于深度学习和文本语义理解技术突破的人工智能公司,致力于智能对话技术的研发和创新,以知识图谱构建整个问答体系,为企业提供更懂用户需求的智能问答系统,以用于智能客服、虚拟助理、智能家居等对话交互场景。智言科技的研发团队博士占比为30%,与国内外高校保持紧密的学术合作,其人工智能语义理解平台(Webot),为企业提供国际领先、定制化的语义理解解决方案。目前,智言科技的产品已在互联网金融、在线教育、保险、在线旅游等新兴行业以及物流等传统行业落地。


报告题目:知识图谱在工业界智能问答系统中的应用


报告摘要:

基于知识图谱的智能问答受到工业界和学术界的大力关注,其在提高企业效率、变革交互方式等方面发挥着重要作用。在企业实际落地的过程中,面临着初期数据缺少(冷启动)以及在获取大量数据后模型持续更新等问题。此外,客户数据的多样性、业务逻辑的复杂性,使得单一的基于结构化数据(知识图谱)的问答难以覆盖所有业务场景。本报告首先详细介绍智言科技在冷启动时,如何使用无监督方法落地单轮、多轮对话、图谱构建和基于图谱的问答系统。此外,在获取一定量的标注数据后,该报告进一步介绍了基于深度神经网络的模型在语义匹配、知识图谱构建、对话管理以及非结构化文本问答等方面的落地实施。最后,会简要的讨论如何在生产环境中持续优化模型。



主办单位


苏州大学先进数据分析研究中心

http://ada.suda.edu.cn

复旦大学知识工场实验室

http://kw.fudan.edu.cn



赞助单位


国家自然科学基金



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 进行报名

登录查看更多
7

相关内容

中文知识图谱(Chinese Knowledge Graph),最早起源于Google Knowledge Graph。知识图谱本质上是一种语义 网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

报告主题: 信息抽取前沿动态

报告摘要: 信息抽取是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。本次报告从特征多元化、语料构建(半)自动化、任务联合学习等方面分析了当前信息提取的任务难点,并提出解决方案。

邀请嘉宾: 陈玉博,博士,中科院自动化所模式识别国家重点实验室助理研究员,研究方向为信息抽取、知识图谱和自然语言处理。在ACL、EMNLP、COLING、CIKM、WWW、AAAI等国际重要会议和期刊发表学术论文20余篇,曾获得NLP-NABD 2016最佳论文奖、CCKS 2017最佳论文奖。主持或参与国家自然科学基金青年基金项目、国家自然科学基金重点项目以及多项企业合作科研项目的研发,合作企业包括:华为、蚂蚁金服、腾讯、云知声等,同时也开发了事件抽取、关系抽取、实体识别和消歧等多项工具和软件。目前为中国中文信息学会青年工作委员会委员、中国中文信息学会语言与知识计算专委会委员。2018年获得中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。

成为VIP会员查看完整内容
0
41

论文题目:大规模结构化知识的 表示学习、自动获取与计算应用

论文作者:林衍凯,腾讯微信模式识别中心高级研究员。博士毕业于来自清华大学自然语言处理组, 由孙茂松教授和刘知远副教授共同指导,主要研究方向为知识图谱表示、构建和应用。目前已在人工智能、自然语言处理等领域的著名国际会议IJCAI,AAAI,EMNLP,ACL发表相关论文多篇,Google Scholar引用数超过1400。曾获2017年百度奖学金、2018年清华大学学术新秀。

指导老师:孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

论文摘要:知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精 准查询、深度理解与逻辑推理等能力。目前,基于深度学习的自然语言处理技术只 能从数据中机械地学习完成特定任务的语义模式,不具备鲁棒性和可解释性,做 不到对语言的深层理解与推理。我们认为要想实现真正的自然语言理解,需要在 现有深度学习技术的基础上融合知识图谱信息。实现自然语言处理与知识图谱的 融合并非轻而易举,需要解决几个关键问题: (1)知识表示。在深度学习模型中充分利用大规模知识图谱,需要首先解决知 识图谱表示的问题。在这方面,我的工作包括:a. 考虑知识图谱复杂关系的知识 表示:我们提出了基于映射矩阵进行空间投影的知识图谱表示模型,用于处理知 识图谱中的复杂关系。b. 考虑知识图谱复杂路径的知识表示:我们认为实体之间 多步的关系路径同样包含着丰富的关系推理信息,并提出了一种基于路径表示的 知识图谱表示模型。c. 考虑知识图谱复杂属性的知识表示:我们提出了一种同时 学习知识图谱中实体、关系和特性表示的知识图谱表示模型,以提高知识图谱表 示的质量。 (2)知识获取。如何从互联网大规模的结构化、半结构和无结构数据中自动获 取知识,辅以少量人工校验,是大规模知识图谱构建的必由之路。在这方面,我的 工作包括:a. 基于选择注意力机制的关系抽取:针对远程监督数据中存在大量的 噪音的问题,我们提出了一个基于句子级别选择注意力机制的神经网络关系抽取 模型,用于过滤错误标注的句子。b. 基于多语言注意力机制的关系抽取:现有的 关系抽取系统通常专注于如何更好地利用单语言数据,忽略了多语言数据对于关 系抽取任务的帮助。针对这个问题,我们提出了一个基于多语言选择注意力机制 的关系抽取模型。 (3)知识应用。面向不同自然语言处理任务,我们需要探索将知识合理地融合 到该任务下的深度学习模型中,实现知识指导的自然语言理解。在这方面,我的 工作包括:a. 基于知识的实体分类:我们提出了基于知识注意力机制的实体分类 模型,用于考虑命名实体和上下文之间的联系以及知识图谱中丰富的有关信息。b. 基于知识的开放域问答:我们借鉴人类回答问题的模式提出了一个基于 ‘‘粗读-精 读-总结’’ 模式的开放域问答系统。 我们的工作有效地解决了面向知识图谱的知识表示、知识获取、知识应用中 的关键问题,为迈向真正的自然语言理解打下了坚实的基础。

成为VIP会员查看完整内容
博士论文_林衍凯_大规模结构化知识的表示学习、自动获取与计算应用.pdf
0
33

报告主题:从知识表示发展历史理解知识图谱

报告摘要:语言和知识表达的多样性使得知识的生产和消费之间存在巨大差异,知识表示通过对知识的解耦和组合衔接不同个体的内在知识。目前,知识图谱俨然成为学术界和业界的知识表示新宠,它有什么特点?与传统知识表示有什么关系?本报告将从知识的数据化和数据的知识化两条知识表示发展脉络介绍知识图谱的由来,并介绍知识图谱在大数据时代描述知识的优缺点,希望能增加大家对知识图谱的理解。

嘉宾简介:何世柱,博士,中科院自动化所模式识别国家重点实验室副研究员,2016年获得中国科学院大学工学博士学位。研究方向为自然语言处理、知识工程和问答系统。在ACL、EMNLP、CIKM、AAAI、IJCAI等自然语言处理、知识工程和人工智能国际重要会议发表论文20余篇。参与国家自然科学基金重点项目、973计划、863计划以及多项企业合作科研项目的研发,合作企业包括:华为、阿里巴巴、腾讯等,同时也开发了知识抽取,知识问答等多项工具和软件。目前主持国家自然科学基金青年科学基金项目“知识问答中的自然答案生成关键技术研究”,2018年获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。

成为VIP会员查看完整内容
知识图谱发展历程-public_Optimize.pdf
0
25
小贴士
Top