n元语法(英语:N-gram)指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。[1][2]这一模型被广泛应用于概率论、通信理论、计算语言学(如基于统计的自然语言处理)、计算生物学(如序列分析)、数据压缩等领域。

VIP内容

对于提取关键词的研究在十九世纪就已经开始了,但是基于encoder-decoder框架和sequence-to-squence序列学习的高级抽象方法,直到最近才被探索出来。事实上,在过去的三年内,学术界已经提出了十几种抽象的方法,能够生成有意义的关键词,并且效果良好。

介绍: 在这篇综述中,我们研究了提取关键词方法的各个方面,其中主要关注基于神经网络的较新的抽象方法。特别地,我们注意到这种机制能够驱动后者变得更加完善。本文还介绍了近二十年来各种关键词生成和文本摘要的研究模式和发展趋势。我们首先会回顾一下最流行的KE方法,特别是有监督的、基于图的和其他无监督的方法。接下来我们会描述目前流行的关键词数据集:OAGKX。这个数据集可以被用作数据源去训练可监督的KG方法或者从更加具体的学科去生成其他副产品。

抽取关键词生成模型:

1.可监督式模型

KEA算法(Keyphrase Extraction Algorithm)使用类似TF-IDF和first occurrence这样的特征,然后使用朴素贝叶斯分类器来判断候选短语是否是关键短语。而在多个方面继承KEA的Maui算法则是又前进了一步。它结合多种类型的特征,并利用维基百科的文章作为语言知识的来源。也有一些尝试是通过探索各种特征设置来改善现有的方法,例如有学者就通过调研n-grams,noun phrases,PoS tags等特征设置得出结论:与只使用n-gram相比,使用与POS tags模式匹配的单词或n-gram可以提高召回率。

2.基于图的方法

与无监督抽取KG方法相比,基于图的方法所需的计算资源是最多的。TextRank是一种基于图的排序方法,来源于PageRank算法。在上面的基础之上进化出了SingleRank和ExpandRank方法,从实验结果上看,在任何尺寸的邻域上,ExpandRank都要优于SinleRank。速度最快且可用的方法是RAKE,与TextRank相比,RAKE精确度更高,召回率更小。

3.其他方法

除了上面提到的两类之外,还有一些是无监督的且不基于图的方法。他们中的大多数利用聚类和各种相似性度量来寻找最佳关键字段。如经典的TF-IDF就是计算分数并且对整篇文档的文本短语进行排序。同时,TF-IDF也是在KG方法研究中最常用的baseline之一。

成为VIP会员查看完整内容
Keyphrase Generation A Multi-Aspect Survey.pdf
14+
0+
更多VIP内容

最新论文

We introduce The Benchmark of Linguistic Minimal Pairs (shortened to BLiMP), a challenge set for evaluating what language models (LMs) know about major grammatical phenomena in English. BLiMP consists of 67 sub-datasets, each containing 1000 minimal pairs isolating specific contrasts in syntax, morphology, or semantics. The data is automatically generated according to expert-crafted grammars, and aggregate human agreement with the labels is 96.4%. We use it to evaluate n-gram, LSTM, and Transformer (GPT-2 and Transformer-XL) LMs. We find that state-of-the-art models identify morphological contrasts reliably, but they struggle with semantic restrictions on the distribution of quantifiers and negative polarity items and subtle syntactic phenomena such as extraction islands.

0+
0+
下载
预览
更多最新论文
Top