对于提取关键词的研究在十九世纪就已经开始了,但是基于encoder-decoder框架和sequence-to-squence序列学习的高级抽象方法,直到最近才被探索出来。事实上,在过去的三年内,学术界已经提出了十几种抽象的方法,能够生成有意义的关键词,并且效果良好。

介绍: 在这篇综述中,我们研究了提取关键词方法的各个方面,其中主要关注基于神经网络的较新的抽象方法。特别地,我们注意到这种机制能够驱动后者变得更加完善。本文还介绍了近二十年来各种关键词生成和文本摘要的研究模式和发展趋势。我们首先会回顾一下最流行的KE方法,特别是有监督的、基于图的和其他无监督的方法。接下来我们会描述目前流行的关键词数据集:OAGKX。这个数据集可以被用作数据源去训练可监督的KG方法或者从更加具体的学科去生成其他副产品。

抽取关键词生成模型:

1.可监督式模型

KEA算法(Keyphrase Extraction Algorithm)使用类似TF-IDF和first occurrence这样的特征,然后使用朴素贝叶斯分类器来判断候选短语是否是关键短语。而在多个方面继承KEA的Maui算法则是又前进了一步。它结合多种类型的特征,并利用维基百科的文章作为语言知识的来源。也有一些尝试是通过探索各种特征设置来改善现有的方法,例如有学者就通过调研n-grams,noun phrases,PoS tags等特征设置得出结论:与只使用n-gram相比,使用与POS tags模式匹配的单词或n-gram可以提高召回率。

2.基于图的方法

与无监督抽取KG方法相比,基于图的方法所需的计算资源是最多的。TextRank是一种基于图的排序方法,来源于PageRank算法。在上面的基础之上进化出了SingleRank和ExpandRank方法,从实验结果上看,在任何尺寸的邻域上,ExpandRank都要优于SinleRank。速度最快且可用的方法是RAKE,与TextRank相比,RAKE精确度更高,召回率更小。

3.其他方法

除了上面提到的两类之外,还有一些是无监督的且不基于图的方法。他们中的大多数利用聚类和各种相似性度量来寻找最佳关键字段。如经典的TF-IDF就是计算分数并且对整篇文档的文本短语进行排序。同时,TF-IDF也是在KG方法研究中最常用的baseline之一。

成为VIP会员查看完整内容
Keyphrase Generation A Multi-Aspect Survey.pdf
52

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《多任务学习》综述,39页pdf
专知会员服务
258+阅读 · 2020年7月10日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
133+阅读 · 2020年6月17日
专知会员服务
49+阅读 · 2020年6月14日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
152+阅读 · 2020年6月12日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
【综述】交通流量预测,附15页论文下载
专知会员服务
128+阅读 · 2020年4月23日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
【文献综述】图像分割综述,224篇参考文献,附58页PDF
专知会员服务
115+阅读 · 2019年6月16日
最全综述 | 图像目标检测
计算机视觉life
30+阅读 · 2019年6月24日
精选论文 | 图深度学习【附打包下载】
人工智能前沿讲习班
11+阅读 · 2019年6月12日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
基于深度学习的艺术风格化研究【附PDF】
人工智能前沿讲习班
8+阅读 · 2019年3月3日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
9+阅读 · 2018年3月10日
VIP会员
相关VIP内容
最新《多任务学习》综述,39页pdf
专知会员服务
258+阅读 · 2020年7月10日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
133+阅读 · 2020年6月17日
专知会员服务
49+阅读 · 2020年6月14日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
152+阅读 · 2020年6月12日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
【综述】交通流量预测,附15页论文下载
专知会员服务
128+阅读 · 2020年4月23日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
【文献综述】图像分割综述,224篇参考文献,附58页PDF
专知会员服务
115+阅读 · 2019年6月16日
相关资讯
最全综述 | 图像目标检测
计算机视觉life
30+阅读 · 2019年6月24日
精选论文 | 图深度学习【附打包下载】
人工智能前沿讲习班
11+阅读 · 2019年6月12日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
基于深度学习的艺术风格化研究【附PDF】
人工智能前沿讲习班
8+阅读 · 2019年3月3日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
微信扫码咨询专知VIP会员