题目: Natural Language Processing and Query Expansion

简介:

大量知识资源的可用性刺激了开发和增强信息检索技术的大量工作。用户的信息需求以自然语言表达,成功的检索很大程度上取决于预期目的的有效沟通。自然语言查询包含多种语言功能,这些语言功能代表了预期的搜索目标。导致语义歧义和对查询的误解以及其他因素(例如,对搜索环境缺乏了解)的语言特征会影响用户准确表示其信息需求的能力,这是由概念意图差距造成的。后者直接影响返回的搜索结果的相关性,而这可能不会使用户满意,因此是影响信息检索系统有效性的主要问题。我们讨论的核心是通过手动或自动捕获有意义的术语,短语甚至潜在的表示形式来识别表征查询意图及其丰富特征的重要组成部分,以手动或自动捕获它们的预期含义。具体而言,我们讨论了实现丰富化的技术,尤其是那些利用从文档语料库中的术语相关性的统计处理或从诸如本体之类的外部知识源中收集的信息的技术。我们提出了基于通用语言的查询扩展框架的结构,并提出了基于模块的分解,涵盖了来自查询处理,信息检索,计算语言学和本体工程的主题问题。对于每个模块,我们都会根据所使用的技术回顾分类和分析的文献中的最新解决方案。

成为VIP会员查看完整内容
0
31

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

题目: A Survey on Transfer Learning in Natural Language Processing

摘要:

深度学习模型通常需要大量数据。 但是,这些大型数据集并非总是可以实现的。这在许多具有挑战性的NLP任务中很常见。例如,考虑使用神经机器翻译,在这种情况下,特别对于低资源语言而言,可能无法整理如此大的数据集。深度学习模型的另一个局限性是对巨大计算资源的需求。这些障碍促使研究人员质疑使用大型训练模型进行知识迁移的可能性。随着许多大型模型的出现,对迁移学习的需求正在增加。在此调查中,我们介绍了NLP领域中最新的迁移学习进展。我们还提供了分类法,用于分类文献中的不同迁移学习方法。

成为VIP会员查看完整内容
0
73

题目: Attention in Natural Language Processing

摘要:

注意力是一种越来越受欢迎的机制,在广泛的神经结构中使用。该机制本身以各种格式实现。然而,由于这一领域的快速发展,仍然缺乏对注意力的系统概述。在本文中,我们为自然语言处理中的注意力架构定义了一个统一的模型,重点是那些设计用来处理文本数据的向量表示的模型。根据四个维度提出了注意力模型的分类:输入的表示、兼容性函数、分布函数和输入和输出的多样性。然后展示了如何在注意力模型中利用先验信息的例子,并讨论了该领域正在进行的研究工作和面临的挑战。

成为VIP会员查看完整内容
0
84

题目: Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

简介: 在探索性搜索任务中,除了信息检索之外,信息表示是有意义的重要因素。在本文中,我们探索了知识图的多层扩展,即层次知识图(HKG),它将层次化和网络可视化结合为统一的数据表示形式,作为支持探索性搜索工具。我们将描述我们的算法,以构建可视化效果,分析结果以定量地展示与网络的性能奇偶性以及相对于层次结构的性能优势,并从交互日志,interviews和thinkalouds的数据综合到测试平台数据集上,以证明统一的分层结构+ HKG中的网络结构。除了上述研究,我们还对精度和召回率对两种不同的探索性搜索任务的层次知识图的性能进行了其他混合方法分析。虽然定量数据显示精确度和召回率对用户性能和用户工作量的影响有限,但定性数据与事后统计分析相结合提供了证据,表明探索性搜索任务的类型(例如学习与调查)可能会受到精确度和召回影响。此外,我们的定性分析发现用户无法感知所提取信息的质量差异。我们讨论了结果的含义,并分析了在实验任务中对探索性搜索性能产生更大影响的其他因素。

成为VIP会员查看完整内容
0
34

题目: Natural Language Processing Advancements By Deep Learning: A Survey

摘要: 自然语言处理(NLP)帮助智能机器更好地理解人类语言,实现基于语言的人机交流。算力的最新发展和语言大数据的出现,增加了使用数据驱动方法自动进行语义分析的需求。由于深度学习方法在计算机视觉、自动语音识别,特别是NLP等领域的应用取得了显著的进步,数据驱动策略的应用已经非常普遍。本综述对得益于深度学习的NLP的不同方面和应用进行了分类和讨论。它涵盖了核心的NLP任务和应用,并描述了深度学习方法和模型如何推进这些领域。我们并进一步分析和比较不同的方法和最先进的模型。

成为VIP会员查看完整内容
0
53

简介: 在许多将数据表示为图形的领域中,学习图形之间的相似性度量标准被认为是一个关键问题,它可以进一步促进各种学习任务,例如分类,聚类和相似性搜索。 最近,人们对深度图相似性学习越来越感兴趣,其中的主要思想是学习一种深度学习模型,该模型将输入图映射到目标空间,以使目标空间中的距离近似于输入空间中的结构距离。 在这里,我们提供对深度图相似性学习的现有文献的全面回顾。 我们为方法和应用提出了系统的分类法。 最后,我们讨论该问题的挑战和未来方向。

在特征空间上学习足够的相似性度量可以显着确定机器学习方法的性能。从数据自动学习此类度量是相似性学习的主要目的。相似度/度量学习是指学习一种功能以测量对象之间的距离或相似度,这是许多机器学习问题(例如分类,聚类,排名等)中的关键步骤。例如,在k最近邻(kNN)中分类[25],需要一个度量来测量数据点之间的距离并识别最近的邻居;在许多聚类算法中,数据点之间的相似性度量用于确定聚类。尽管有一些通用度量标准(例如欧几里得距离)可用于获取表示为矢量的对象之间的相似性度量,但是这些度量标准通常无法捕获正在研究的数据的特定特征,尤其是对于结构化数据。因此,找到或学习一种度量以测量特定任务中涉及的数据点的相似性至关重要。

成为VIP会员查看完整内容
0
70

简介: 人们在阅读文章时,可以识别关键思想,作出总结,并建立文章中的联系以及对其他需要理解的内容等方面都做得很出色。深度学习的最新进展使计算机系统可以实现类似的功能。用于自然语言处理的深度学习可教您将深度学习方法应用于自然语言处理(NLP),以有效地解释和使用文章。在这本书中,NLP专家Stephan Raaijmakers提炼了他对这个快速发展的领域中最新技术发展的研究。通过详细的说明和丰富的代码示例,您将探索最具挑战性的NLP问题,并学习如何通过深度学习解决它们!

自然语言处理是教计算机解释和处理人类语言的科学。最近,随着深度学习的应用,NLP技术已跃升至令人兴奋的新水平。这些突破包括模式识别,从上下文中进行推断以及确定情感语调,从根本上改善了现代日常便利性,例如网络搜索,以及与语音助手的交互。他们也在改变商业世界!

目录:

  • NLP和深度学习概述
  • 文本表示
  • 词嵌入
  • 文本相似性模型
  • 序列NLP
  • 语义角色标签
  • 基于深度记忆的NLP
  • 语言结构
  • 深度NLP的超参数

1深度NLP学习

  • 1.1概述
  • 1.2面向NLP的机器学习方法
  • 1.2.1感知机
  • 1.2.2 支持向量机
  • 1.2.3基于记忆的学习
  • 1.3深度学习
  • 1.4语言的向量表示
  • 1.4.1表示向量
  • 1.4.2运算向量
  • 1.5工具
  • 1.5.1哈希技巧
  • 1.5.2向量归一化
  • 1.6总结

2 深度学习和语言:基础知识

  • 2.1深度学习的基本构架
  • 2.1.1多层感知机
  • 2.1.2基本运算符:空间和时间
  • 2.2深度学习和NLP
  • 2.3总结

3文字嵌入

  • 3.1嵌入
  • 3.1.1手工嵌入
  • 3.1.2学习嵌入
  • 3.2word2vec
  • 3.3doc2vec
  • 3.4总结

4文字相似度

  • 4.1问题
  • 4.2数据
  • 4.2.1作者归属和验证数据
  • 4.3数据表示
  • 4.3.1分割文件
  • 4.3.2字的信息
  • 4.3.3子字集信息
  • 4.4相似度测量模型
  • 4.5.1多层感知机
  • 4.5.2CNN
  • 4.6总结

5序列NLP和记忆

  • 5.1记忆和语言
  • 5.1.1问答
  • 5.2数据和数据处理
  • 5.3序列模型的问答
  • 5.3.1用于问答的RNN
  • 5.3.2用于问答的LSTM
  • 5.3.3问答的端到端存储网络
  • 5.4总结

6NLP的6种情景记忆

  • 6.1序列NLP的记忆网络
  • 6.2数据与数据处理
  • 6.2.1PP附件数据
  • 6.2.2荷兰小数据
  • 6.2.3西班牙语词性数据
  • 6.3监督存储网络
  • 6.3.1PP连接
  • 6.3.2荷兰小商品
  • 6.3.3西班牙语词性标记
  • 6.4半监督存储网络
  • 6.5半监督存储网络:实验和结果
  • 6.6小结
  • 6.7代码和数据

7注意力机制

  • 7.1神经注意力机制
  • 7.2数据
  • 7.3静态注意力机制:MLP
  • 7.4暂态注意力机制:LSTM
  • 7.4.1实验
  • 7.5小结

8多任务学习

  • 8.1简介
  • 8.2数据
  • 8.3.1数据处理
  • 8.3.2硬参数共享
  • 8.3.3软参数共享
  • 8.3.4混合参数共享
  • 8.4主题分类
  • 8.4.1数据处理
  • 8.4.2硬参数共享
  • 8.4.3软参数共享
  • 8.4.4混合参数共享
  • 8.5词性和命名实体识别数据
  • 8.5.1数据处理
  • 8.5.2硬参数共享
  • 8.5.3软参数共享
  • 8.5.4混合参数共享
  • 8.6结论

附录

附录A:NLP

附录B:矩阵代数

附录C:超参数估计和分类器性能评估

成为VIP会员查看完整内容
0
33

论文摘要

图无处不在,从引文和社交网络到知识图谱(KGs)。它们是最富表现力的数据结构之一,已被用于建模各种问题。知识图谱是图中事实的结构化表示,其中节点表示实体,边表示实体之间的关系。最近的研究已经开发出几种大型知识图谱;例如DBpedia、YAGO、NELL和Freebase。然而,它们都是稀疏的,每个实体只有很少的事实。例如,每个实体只包含1.34个事实。在论文的第一部分,我们提出了缓解这一问题的三个解决方案:(1)KG规范化,即(2)关联提取,它涉及到从非结构化文本中提取实体之间的语义关系的自动化过程;(3)链接预测,它包括基于KG中的已知事实推断缺失的事实。KG的规范化,我们建议CESI(规范化使用嵌入和边信息),一个新颖的方法执行规范化学习嵌入开放KG。KG嵌入的方法扩展了最新进展将相关NP和关系词信息原则的方式。对于关系提取,我们提出了一种远程监督神经关系提取方法,该方法利用KGs中的附加边信息来改进关系提取。最后,对于链路预测,我们提出了扩展ConvE的InteractE,这是一种基于卷积神经网络的链路预测方法,通过三个关键思想:特征置换、新颖的特征重塑和循环卷积来增加特征交互的次数。通过对多个数据集的大量实验,验证了所提方法的有效性。

传统的神经网络如卷积网络和递归神经网络在处理欧几里得数据时受到限制。然而,在自然语言处理(NLP)中图形是很突出的。最近,图卷积网络(Graph Convolutional Networks, GCNs)被提出来解决这一缺点,并成功地应用于多个问题。在论文的第二部分,我们利用GCNs来解决文档时间戳问题,它是文档检索和摘要等任务的重要组成部分。

为此,我们提出利用GCNs联合开发文档语法和时态图结构的NeuralDater,以获得该问题的最新性能。提出了一种灵活的基于图卷积的词嵌入学习方法——SynGCN,该方法利用词的依赖上下文而不是线性上下文来学习更有意义的词嵌入。在论文的第三部分,我们讨论了现有GCN模型的两个局限性,即(1)标准的邻域聚合方案对影响目标节点表示的节点数量没有限制。这导致了中心节点的噪声表示,中心节点在几个跃点中几乎覆盖了整个图。为了解决这个缺点,我们提出了ConfGCN(基于信任的GCN),它通过估计信任来确定聚合过程中一个节点对另一个节点的重要性,从而限制其影响邻居。(2)现有的GCN模型大多局限于处理无向图。然而,更一般和更普遍的一类图是关系图,其中每条边都有与之关联的标签和方向。现有的处理此类图的方法存在参数过多的问题,并且仅限于学习节点的表示。我们提出了一种新的图卷积框架CompGCN,它将实体和关系共同嵌入到一个关系图中。CompGCN是参数有效的,并且可以根据关系的数量进行扩展。它利用了来自KG嵌入技术的各种实体-关系组合操作,并在节点分类、链接预测和图分类任务上取得了明显的优势结果。

成为VIP会员查看完整内容
0
60

主题: Deep Natural Language Processing for Search Systems

简介: 搜索引擎处理丰富的自然语言数据,如用户查询和记录。提高搜索质量需要有效地处理和理解这类信息,通常使用自然语言处理技术。作为搜索系统中的代表性数据格式,查询或记录数据被表示为单词序列。在传统方法中,理解这样的序列信息通常是一项非常重要的任务,面临着来自数据稀疏性和数据泛化的挑战。深度学习模型提供了一个有效提取有代表性的相关信息的机会,从而更好地理解复杂的语义和潜在的搜索意图。近年来,深度学习在各种自然语言处理任务中取得了显著的进步,显示出其在促进搜索系统方面的巨大潜力。

然而,开发搜索系统中自然语言处理的深度学习模型不可避免地需要满足复杂的搜索引擎生态系统的要求。例如,一些系统需要频繁的模型更新,所以冗长的模型训练时间是不容许的。此外,低服务延迟约束禁止使用复杂模型。如何以相对较低的复杂度保持模型质量是深度学习从业者面临的持续挑战。

在本教程中,作者总结了当前在搜索系统中自然语言处理的深度学习工作,首先概述了搜索系统和搜索中的自然语言处理,然后介绍了自然语言处理的深度学习的基本概念,并介绍了如何将深度自然语言处理应用于搜索系统的实践。本教程全面概述了通过端到端搜索系统在上述组件中应用深度自然语言处理技术。除了传统的搜索引擎,还包括一些高级搜索系统的用例,如对话搜索和面向任务的聊天机器人。我们还强调了几个重要的未来趋势,比如通过查询生成与用户交互,以及减少延迟以满足行业标准。

成为VIP会员查看完整内容
Deep Natural Language Processing for Search Systems.pdf
0
82
小贴士
相关VIP内容
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
82+阅读 · 2019年6月21日
相关资讯
图神经网络(Graph Neural Networks,GNN)综述
极市平台
54+阅读 · 2019年11月27日
情感计算综述
人工智能学家
22+阅读 · 2019年4月6日
自然语言处理常识推理综述论文,60页pdf
专知
30+阅读 · 2019年4月4日
中文对比英文自然语言处理NLP的区别综述
AINLP
15+阅读 · 2019年3月20日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
11+阅读 · 2019年2月22日
命名实体识别(NER)综述
AI研习社
52+阅读 · 2019年1月30日
最全面的百度NLP自然语言处理技术解析
InfoQ
7+阅读 · 2017年11月12日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
13+阅读 · 2017年9月23日
相关论文
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
85+阅读 · 2020年3月18日
Few-shot Natural Language Generation for Task-Oriented Dialog
Baolin Peng,Chenguang Zhu,Chunyuan Li,Xiujun Li,Jinchao Li,Michael Zeng,Jianfeng Gao
22+阅读 · 2020年2月27日
A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
Jorge Agnese,Jonathan Herrera,Haicheng Tao,Xingquan Zhu
4+阅读 · 2019年10月21日
A Survey of the Usages of Deep Learning in Natural Language Processing
Daniel W. Otter,Julian R. Medina,Jugal K. Kalita
62+阅读 · 2019年9月11日
Yash Srivastava,Vaishnav Murali,Shiv Ram Dubey,Snehasis Mukherjee
4+阅读 · 2019年8月27日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
11+阅读 · 2019年6月25日
Analysis Methods in Neural Language Processing: A Survey
Yonatan Belinkov,James Glass
4+阅读 · 2019年1月14日
Sai Surya,Abhijit Mishra,Anirban Laha,Parag Jain,Karthik Sankaranarayanan
3+阅读 · 2018年12月19日
Christian Buck,Jannis Bulian,Massimiliano Ciaramita,Wojciech Gajewski,Andrea Gesmundo,Neil Houlsby,Wei Wang
6+阅读 · 2018年1月23日
Diksha Khurana,Aditya Koli,Kiran Khatter,Sukhdev Singh
4+阅读 · 2017年8月17日
Top