https://nowpublishers.com/article/Details/INR-076

匹配在搜索和推荐中都是一个关键问题,它是衡量文档与查询的相关性或用户对某个条目的兴趣。机器学习已经被用来解决这个问题,它根据输入表示和标记数据学习匹配函数,也被称为“学习匹配”。近年来,人们努力开发用于匹配搜索和推荐任务的深度学习技术。随着大量数据的可用性、强大的计算资源和先进的深度学习技术,用于匹配的深度学习现在已经成为最先进的搜索和推荐技术。深度学习方法成功的关键在于它在从数据(例如查询、文档、用户、条目和上下文,特别是原始形式)中学习表示和匹配模式的泛化方面的强大能力。

本文系统全面地介绍了最近发展起来的搜索推荐深度匹配模型。首先给出了搜索和推荐匹配的统一观点。这样,两个领域的解决方案就可以在一个框架下进行比较。然后,调查将目前的深度学习解决方案分为两类:表示学习方法和匹配函数学习方法。介绍了搜索中的查询-文档匹配和推荐中的用户-项匹配的基本问题和最新的解决方案。该调查旨在帮助搜索和推荐社区的研究人员深入了解和洞察空间,激发更多的想法和讨论,促进新技术的发展。

匹配并不局限于搜索和推荐。在释义、问题回答、图像注释和许多其他应用程序中都可以发现类似的问题。一般而言,调查中引入的技术可以概括为一个更一般的任务,即匹配来自两个空间的物体。

图1.1:搜索和推荐匹配的统一视图。

  • 输入层接收两个匹配对象,它们可以是单词嵌入、ID向量或特征向量。

  • 表示层将输入向量转换为分布式表示。这里可以使用MLP、CNN和RNN等神经网络,这取决于输入的类型和性质。

  • 交互层比较匹配对象(例如,两个分布式表示)并输出大量(局部或全局)匹配信号。矩阵和张量可以用来存储信号及其位置。

  • 聚合层将各个匹配信号聚合成一个高级匹配向量。该层通常采用深度神经网络中的pooling和catenation等操作。

  • 输出层获取高级匹配向量并输出匹配分数。可以利用线性模型、MLP、神经张量网络(NTN)或其他神经网络。

成为VIP会员查看完整内容
0
113

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

图在许多应用中被广泛用于表示复杂数据,如电子商务、社交网络和生物信息学。高效、有效地分析图数据对于基于图的应用程序非常重要。然而,大多数图分析任务是组合优化(CO)问题,这是NP困难。最近的研究集中在使用机器学习(ML)解决基于图CO问题的潜力上。使用基于ML的CO方法,一个图必须用数值向量表示,这被称为图嵌入。在这个调查中,我们提供了一个全面的概述,最近的图嵌入方法已经被用来解决CO问题。大多数图嵌入方法有两个阶段:图预处理和ML模型学习。本文从图预处理任务和ML模型的角度对图嵌入工作进行分类。此外,本文还总结了利用图嵌入的基于图的CO方法。特别是,图嵌入可以被用作分类技术的一部分,也可以与搜索方法相结合来寻找CO问题的解决方案。最后对未来的研究方向做了一些评论。

成为VIP会员查看完整内容
0
21

本篇推荐来自CMU-LTI的小姐姐Zhuyun Dai博士论文《Neural Matching and Importance Learning in Information Retrieval》,是信息检索领域值得关注的最新工作。

作者介绍:

Zhuyun Dai

卡内基梅隆大学语言技术学院(LTI)的博士生。研究方向是提升当今信息检索系统的语言理解能力,构建下一代信息助理系统,帮助人们无缝地获取世界上的知识。

http://www.cs.cmu.edu/~zhuyund/index.html

信息检索中的神经匹配与重要性学习

地址:https://www.cs.cmu.edu/~zhuyund/zhuyundai_defense.pdf

在50-60年的时间里,信息检索(IR)系统依赖于词汇袋方法。尽管词包检索有一些长期存在的限制,但解决这些问题的尝试大多是不成功的。最近,神经网络为自然语言建模提供了一种新的范式。这篇论文的目的是结合IR的观点和神经网络的关键优势,以带来更深入的语言理解IR。

本论文的第一部分主要研究如何匹配查询和文档。 最先进的排序器以前依赖于精确的词汇匹配,这导致了众所周知的词汇不匹配问题。本文开发了将软匹配引入相关性排序的神经模型。利用分布式文本表示,我们的模型可以对每个查询词和每个文档词进行软匹配。由于软匹配信号有噪声,本文提出了一种新的核池技术,该技术根据软匹配对相关性的贡献对软匹配进行分组。本文还研究了预训练好的模型参数是否可以改善低资源域,以及模型架构在非文本检索任务中是否可重用。我们的方法比以前最先进的排名系统有很大的优势。

本论文的第二部分主要研究如何表示查询和文档。一个典型的搜索引擎使用频率统计来确定单词的权重,但是频繁的单词对文本的意义不一定是必要的。本论文开发的神经网络,以估计词的重要性,基于如何相互作用的语言语境。开发了一种弱监督方法,允许在没有任何人工注释的情况下训练我们的模型。我们的模型可以离线运行,在不影响效率的前提下显著提高了第一阶段的检索。

总之,本文提出了一种新的神经检索范式,克服了传统检索模型在匹配和重要性加权方面的局限性。在神经相关性排序、深度检索模型和深度文档理解等方面提出了一些有前景的方法。

成为VIP会员查看完整内容
0
12

随着web技术的发展,多模态或多视图数据已经成为大数据的主要流,每个模态/视图编码数据对象的单个属性。不同的模态往往是相辅相成的。这就引起了人们对融合多模态特征空间来综合表征数据对象的研究。大多数现有的先进技术集中于如何融合来自多模态空间的能量或信息,以提供比单一模态的同行更优越的性能。最近,深度神经网络展示了一种强大的架构,可以很好地捕捉高维多媒体数据的非线性分布,对多模态数据自然也是如此。大量的实证研究证明了深多模态方法的优势,从本质上深化了多模态深特征空间的融合。在这篇文章中,我们提供了从浅到深空间的多模态数据分析领域的现有状态的实质性概述。在整个调查过程中,我们进一步指出,该领域的关键要素是多模式空间的协作、对抗性竞争和融合。最后,我们就这一领域未来的一些方向分享我们的观点。

成为VIP会员查看完整内容
0
73

书名: Deep Learning for Search

简介:

深度学习搜索是一本实用的书,关于如何使用(深度)神经网络来帮助建立有效的搜索引擎。这本书研究了一个搜索引擎的几个组成部分,提供了关于它们如何工作的见解以及如何在每个环境中使用神经网络的指导。重点介绍了基于实例的实用搜索和深度学习技术,其中大部分都有代码。同时,在适当的地方提供相关研究论文的参考资料,以鼓励阅读更多的书籍,加深对特定主题的知识。

读完这本书,将对搜索引擎的主要挑战有所理解,它们是如何被普遍解决的以及深度学习可以做些什么来帮助。并且将对几种不同的深度学习技术以及它们在搜索环境中的适用范围有一个理解,将很好地了解Lucene和Deeplearning4j库。

这本书主要分为3个部分:

  • 第1部分介绍了搜索、机器学习和深度学习的基本概念。第一章介绍了应用深度学习技术来搜索问题的原理,涉及了信息检索中最常见的方法。第2章给出了如何使用神经网络模型从数据中生成同义词来提高搜索引擎效率的第一个例子。

  • 第2部分讨论了可以通过深度神经网络更好地解决的常见搜索引擎任务。第3章介绍了使用递归神经网络来生成用户输入的查询。第四章在深度神经网络的帮助下,在用户输入查询时提供更好的建议。第5章重点介绍了排序模型:尤其是如何使用词嵌入提供更相关的搜索结果。第6章讨论了文档嵌入在排序函数和内容重新编码上下文中的使用。

  • 第3部分将介绍更复杂的场景,如深度学习机器翻译和图像搜索。第7章通过基于神经网络的方法为你的搜索引擎提供多语言能力来指导你。第8章讨论了基于内容的图像集合的搜索,并使用了深度学习模型。第9章讨论了与生产相关的主题,如微调深度学习模型和处理不断输入的数据流。

作者简介:

Tommaso Teofili是一名软件工程师,他对开源机器学习充满热情。作为Apache软件基金会的成员,他为许多开放源码项目做出了贡献,从信息检索到自然语言处理和机器翻译等主题。他目前在Adobe工作,开发搜索和索引基础结构组件,并研究自然语言处理、信息检索和深度学习等领域。他曾在各种会议上发表过搜索和机器学习方面的演讲,包括BerlinBuzzwords、计算科学国际会议、ApacheCon、EclipseCon等。

成为VIP会员查看完整内容
0
104

简介: 在许多将数据表示为图形的领域中,学习图形之间的相似性度量标准被认为是一个关键问题,它可以进一步促进各种学习任务,例如分类,聚类和相似性搜索。 最近,人们对深度图相似性学习越来越感兴趣,其中的主要思想是学习一种深度学习模型,该模型将输入图映射到目标空间,以使目标空间中的距离近似于输入空间中的结构距离。 在这里,我们提供对深度图相似性学习的现有文献的全面回顾。 我们为方法和应用提出了系统的分类法。 最后,我们讨论该问题的挑战和未来方向。

在特征空间上学习足够的相似性度量可以显着确定机器学习方法的性能。从数据自动学习此类度量是相似性学习的主要目的。相似度/度量学习是指学习一种功能以测量对象之间的距离或相似度,这是许多机器学习问题(例如分类,聚类,排名等)中的关键步骤。例如,在k最近邻(kNN)中分类[25],需要一个度量来测量数据点之间的距离并识别最近的邻居;在许多聚类算法中,数据点之间的相似性度量用于确定聚类。尽管有一些通用度量标准(例如欧几里得距离)可用于获取表示为矢量的对象之间的相似性度量,但是这些度量标准通常无法捕获正在研究的数据的特定特征,尤其是对于结构化数据。因此,找到或学习一种度量以测量特定任务中涉及的数据点的相似性至关重要。

成为VIP会员查看完整内容
0
52

简介: 人们在阅读文章时,可以识别关键思想,作出总结,并建立文章中的联系以及对其他需要理解的内容等方面都做得很出色。深度学习的最新进展使计算机系统可以实现类似的功能。用于自然语言处理的深度学习可教您将深度学习方法应用于自然语言处理(NLP),以有效地解释和使用文章。在这本书中,NLP专家Stephan Raaijmakers提炼了他对这个快速发展的领域中最新技术发展的研究。通过详细的说明和丰富的代码示例,您将探索最具挑战性的NLP问题,并学习如何通过深度学习解决它们!

自然语言处理是教计算机解释和处理人类语言的科学。最近,随着深度学习的应用,NLP技术已跃升至令人兴奋的新水平。这些突破包括模式识别,从上下文中进行推断以及确定情感语调,从根本上改善了现代日常便利性,例如网络搜索,以及与语音助手的交互。他们也在改变商业世界!

目录:

  • NLP和深度学习概述
  • 文本表示
  • 词嵌入
  • 文本相似性模型
  • 序列NLP
  • 语义角色标签
  • 基于深度记忆的NLP
  • 语言结构
  • 深度NLP的超参数

1深度NLP学习

  • 1.1概述
  • 1.2面向NLP的机器学习方法
  • 1.2.1感知机
  • 1.2.2 支持向量机
  • 1.2.3基于记忆的学习
  • 1.3深度学习
  • 1.4语言的向量表示
  • 1.4.1表示向量
  • 1.4.2运算向量
  • 1.5工具
  • 1.5.1哈希技巧
  • 1.5.2向量归一化
  • 1.6总结

2 深度学习和语言:基础知识

  • 2.1深度学习的基本构架
  • 2.1.1多层感知机
  • 2.1.2基本运算符:空间和时间
  • 2.2深度学习和NLP
  • 2.3总结

3文字嵌入

  • 3.1嵌入
  • 3.1.1手工嵌入
  • 3.1.2学习嵌入
  • 3.2word2vec
  • 3.3doc2vec
  • 3.4总结

4文字相似度

  • 4.1问题
  • 4.2数据
  • 4.2.1作者归属和验证数据
  • 4.3数据表示
  • 4.3.1分割文件
  • 4.3.2字的信息
  • 4.3.3子字集信息
  • 4.4相似度测量模型
  • 4.5.1多层感知机
  • 4.5.2CNN
  • 4.6总结

5序列NLP和记忆

  • 5.1记忆和语言
  • 5.1.1问答
  • 5.2数据和数据处理
  • 5.3序列模型的问答
  • 5.3.1用于问答的RNN
  • 5.3.2用于问答的LSTM
  • 5.3.3问答的端到端存储网络
  • 5.4总结

6NLP的6种情景记忆

  • 6.1序列NLP的记忆网络
  • 6.2数据与数据处理
  • 6.2.1PP附件数据
  • 6.2.2荷兰小数据
  • 6.2.3西班牙语词性数据
  • 6.3监督存储网络
  • 6.3.1PP连接
  • 6.3.2荷兰小商品
  • 6.3.3西班牙语词性标记
  • 6.4半监督存储网络
  • 6.5半监督存储网络:实验和结果
  • 6.6小结
  • 6.7代码和数据

7注意力机制

  • 7.1神经注意力机制
  • 7.2数据
  • 7.3静态注意力机制:MLP
  • 7.4暂态注意力机制:LSTM
  • 7.4.1实验
  • 7.5小结

8多任务学习

  • 8.1简介
  • 8.2数据
  • 8.3.1数据处理
  • 8.3.2硬参数共享
  • 8.3.3软参数共享
  • 8.3.4混合参数共享
  • 8.4主题分类
  • 8.4.1数据处理
  • 8.4.2硬参数共享
  • 8.4.3软参数共享
  • 8.4.4混合参数共享
  • 8.5词性和命名实体识别数据
  • 8.5.1数据处理
  • 8.5.2硬参数共享
  • 8.5.3软参数共享
  • 8.5.4混合参数共享
  • 8.6结论

附录

附录A:NLP

附录B:矩阵代数

附录C:超参数估计和分类器性能评估

成为VIP会员查看完整内容
0
27

主题: Deep Natural Language Processing for Search Systems

简介: 搜索引擎处理丰富的自然语言数据,如用户查询和记录。提高搜索质量需要有效地处理和理解这类信息,通常使用自然语言处理技术。作为搜索系统中的代表性数据格式,查询或记录数据被表示为单词序列。在传统方法中,理解这样的序列信息通常是一项非常重要的任务,面临着来自数据稀疏性和数据泛化的挑战。深度学习模型提供了一个有效提取有代表性的相关信息的机会,从而更好地理解复杂的语义和潜在的搜索意图。近年来,深度学习在各种自然语言处理任务中取得了显著的进步,显示出其在促进搜索系统方面的巨大潜力。

然而,开发搜索系统中自然语言处理的深度学习模型不可避免地需要满足复杂的搜索引擎生态系统的要求。例如,一些系统需要频繁的模型更新,所以冗长的模型训练时间是不容许的。此外,低服务延迟约束禁止使用复杂模型。如何以相对较低的复杂度保持模型质量是深度学习从业者面临的持续挑战。

在本教程中,作者总结了当前在搜索系统中自然语言处理的深度学习工作,首先概述了搜索系统和搜索中的自然语言处理,然后介绍了自然语言处理的深度学习的基本概念,并介绍了如何将深度自然语言处理应用于搜索系统的实践。本教程全面概述了通过端到端搜索系统在上述组件中应用深度自然语言处理技术。除了传统的搜索引擎,还包括一些高级搜索系统的用例,如对话搜索和面向任务的聊天机器人。我们还强调了几个重要的未来趋势,比如通过查询生成与用户交互,以及减少延迟以满足行业标准。

成为VIP会员查看完整内容
Deep Natural Language Processing for Search Systems.pdf
0
66
小贴士
相关VIP内容
相关论文
Liang Yao,Chengsheng Mao,Yuan Luo
4+阅读 · 2019年9月11日
Chunwei Tian,Yong Xu,Lunke Fei,Ke Yan
3+阅读 · 2018年10月11日
Deep Learning for Generic Object Detection: A Survey
Li Liu,Wanli Ouyang,Xiaogang Wang,Paul Fieguth,Jie Chen,Xinwang Liu,Matti Pietikäinen
6+阅读 · 2018年9月6日
Deep Randomized Ensembles for Metric Learning
Hong Xuan,Richard Souvenir,Robert Pless
3+阅读 · 2018年9月4日
Wenbin Li,Jing Huo,Yinghuan Shi,Yang Gao,Lei Wang,Jiebo Luo
7+阅读 · 2018年5月15日
Phu Mon Htut,Samuel R. Bowman,Kyunghyun Cho
5+阅读 · 2018年4月12日
Ahmet Iscen,Giorgos Tolias,Yannis Avrithis,Ondrej Chum
5+阅读 · 2018年3月29日
Mohammed E. Fathy,Quoc-Huy Tran,M. Zeeshan Zia,Paul Vernaza,Manmohan Chandraker
9+阅读 · 2018年3月27日
Ilya Tolstikhin,Olivier Bousquet,Sylvain Gelly,Bernhard Schoelkopf
6+阅读 · 2018年3月12日
Jiaxuan You,Rex Ying,Xiang Ren,William L. Hamilton,Jure Leskovec
4+阅读 · 2018年2月24日
Top