特定领域的知识库(KB)从各种数据源精心整理而来,为专业人员提供了宝贵的参阅咨询。由于自然语言理解和人工智能的最新进展,会话系统使这些KBs很容易被专业人员访问,并且越来越受欢迎。尽管在开放域应用程序中越来越多地使用各种会话系统,但特定于域的会话系统的需求是完全不同的,而且具有挑战性。在本文中,我们针对特定领域的KBs提出了一个基于本体的对话系统。特别是,我们利用领域本体中固有的领域知识来识别用户意图,并利用相应的实体来引导对话空间。我们结合了来自领域专家的反馈来进一步细化这些模式,并使用它们为会话模型生成训练样本,减轻了会话设计人员的沉重负担。我们已经将我们的创新集成到一个对话代理中,该代理关注医疗保健,这是IBM Micromedex产品的一个特性。
开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复,反事实推理模型会自动推理:如果执行一个现实中未发生的替代策略会得到什么结果?这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下,使用反事实回复来训练模型将有助于探索潜在回复空间中的高奖励区域。在DailyDialog数据集上的实验结果表明,我们的方法显著优于HRED模型和传统的对抗训练方法。
随着大数据时代的到来,海量数据不断涌现,从中寻找有用信息,抽取对应知识的需求变得越来越强烈。针对该需求,知识图谱技术应运而生,并在实现知识互联的过程中日益发挥重要作用。信息抽取作为构建知识图谱的基础技术,实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时,由于具有多样化的实现方法,扩充了信息抽取技术的应用领域和场景,也提升了对信息抽取技术研究的价值和必要性的认可度。本文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史;接着,基于面向限定域和开放域两个方面,介绍信息抽取的关键技术,包括实体抽取技术、关系抽取技术和属性抽取技术。
为机器配备对世界实体及其关系的全面了解一直是人工智能的一个长期目标。在过去的十年中,大规模知识库(也称为知识图谱)已经从Web内容和文本源中自动构建出来,并且已经成为搜索引擎的关键模块。这种机器知识可以被用来从语义上解释新闻、社交媒体和网络表格中的文本短语,并有助于回答问题、自然语言处理和数据分析。本文调查基本概念和实际的方法来创建和管理大型知识库。它涵盖了用于发现和规范化实体及其语义类型以及将它们组织成干净的分类法的模型和方法。在此基础上,本文讨论了以实体为中心的属性的自动提取。为了支持机器知识的长期生命周期和质量保证,本文提出了构建开放模式和知识管理的方法。学术项目的案例研究和工业知识图表补充了概念和方法的调查。
概述
增强计算机的“机器知识”,可以推动智能应用是计算机科学的一个长期目标[323]。由于知识获取方面取得了重大进展,这一以前难以捉摸的愿景如今已变得切实可行。这包括将嘈杂的互联网内容转化为实体和关系上的清晰知识结构的方法。知识获取方法使得自动建设知识库(KB):机器可读的关于现实世界的事实的集合。如今,公开的KBs提供了数以百万计的实体(比如人、组织、地点和书籍、音乐等创意作品)和数十亿的声明(比如谁研究了哪里,哪个国家拥有哪一种资本,或者哪位歌手演唱了哪首歌)。大公司部署的专有KBs包含了更大范围的知识,有一到两个数量级的实体。
知识库成为关键资产的一个突出用例是Web搜索。当我们向百度、Bing或谷歌发送一个类似“迪伦抗议歌曲”的查询时,我们会得到一个清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自动检测到我们对某一个体实体的事实感兴趣——这里是鲍勃·迪伦——并要求特定类型的相关实体——抗议歌曲——作为答案。这是可行的,因为搜索引擎在其后端数据中心有一个巨大的知识库,有助于发现用户请求(及其上下文)中的实体,并找到简明的答案。
本文介绍了从Web和文本源自动构建和管理大型知识库的方法。我们希望它将对博士生和对广泛的主题感兴趣的教师有用——从机器知识和数据质量到机器学习和数据科学,以及web内容挖掘和自然语言理解的应用。此外,本文还旨在为从事web、社会媒体或企业内容的语义技术的行业研究人员和实践者提供帮助,包括从文本或半结构化数据构建意义的各种应用程序。不需要有自然语言处理或统计学习的先验知识;我们将根据需要介绍相关的方法(或至少给出文献的具体指示)。
这篇文章共分为十章。第2章给出了知识表示的基础知识,并讨论了知识库的设计空间。第3、4和5章介绍了构建包含实体和类型的知识库核心的方法。第3章讨论了利用具有丰富和干净的半结构化内容的优质资源,第4章讨论了从文本内容中获取的知识。第5章特别关注将实体规范化为唯一表示的重要问题。第6章和第7章通过发现和提取实体的属性以及实体之间的关系的方法扩展了知识库的范围。第6章主要讨论为感兴趣的属性预先设计模式的情况。第7章讨论了为KB模式中尚未指定的属性和关系发现新的属性类型的情况。第8章讨论了知识库管理和知识库长期维护的质量保证问题。第9章介绍了几个具体KBs的案例研究,包括工业知识图谱(KGs)。我们在第10章以关键课程和关于机器知识主题可能走向的展望来结束。
了解在线用户可能关注的内容是内容推荐和搜索服务的关键。这些服务将受益于实体、概念、事件、主题和类别的高度结构化和web级本体。虽然现有的知识库和分类法包含了大量的实体和类别,但我们认为它们未能以online population的语言风格发现适当粒度的概念、事件和主题。这些概念之间也不存在逻辑结构的本体。在本文中,我们提出GIANT,一种构建一个以用户为中心的、网络规模的、结构化的本体论的机制,该本体论包含了大量的自然语言短语,这些短语在不同的粒度上符合用户的需要,这些短语是从大量的网络文档和搜索点击图中挖掘出来的。此外,还构造了各种类型的边来维护本体中的层次结构。我们介绍了在GIANT中使用的基于图神经网络的技术,并与各种基线进行了比较,对提出的方法进行了评估。腾讯开发出了注意力本体,并将其应用到腾讯的各种应用中,涉及用户超过10亿。在腾讯QQ浏览器上进行的在线A/B测试表明,注意力本体可以显著提高新闻推荐的点击率。