NLP 任务中有哪些巧妙的 idea?

2019 年 11 月 29 日 DataFunTalk

注:图片来自网络

文章作者:邱锡鹏 复旦大学 副教授

编辑整理:Hoh Xil

内容来源:知乎@邱锡鹏

出品社区:DataFun

注:欢迎转载,转载请注明出处


导读:近期,小编在知乎中关注到了一个有意思的话题 "NLP 任务中有哪些巧妙的idea?" ,目前已经有1188+关注,40000+浏览量,今天小编就为大家分享下获得最高点赞的答案,复旦大学邱锡鹏教授的回答:

这个问题很有趣!看了下目前的回答都是深度学习之后的,我就回答几个深度学习之前的吧:

先从语义表示说起,个人觉得都是简单并且巧妙的想法 ( 但其背后的理论不一定简单 )。

1. 分布式假设 ( Distributional Hypothesis )

"Linguistic items with similar distributions have similar meanings." 

直白点就是,一个词的语义可以用它的上下文表示。

对 NLP 来说,个人觉得分布式假设是来自语言学的最有价值的 "理论" 之一。

2. 词袋模型 ( Bag-of-Words )

将一篇文档看作是一个词的集合,不考虑语法,甚至是词序信息也都抛弃了。

BoW 模型解决了用机器学习来做 NLP 的一个痛点问题:怎样把一个变成的文本序列转换为定长的向量。

相关扩展:N-gram,TF-IDF 等。

3. 潜在语义分析 ( Latent Semantic Analysis )

基于上面的分布式假设和词袋模型,我们可以构建一个词-文档矩阵 ( term-document matrix ) 这个矩阵很有意思,每一列为一个文档的表示 ( BoW 向量 ),每一行为一个词的语义表示 ( 分布式假设,其中上下文是以文档为基本单位 )。这样我们就可以用  表示文档和文档之间的关系,用  表示词与词之间的关系。这个矩阵还可以进行 SVD 分解,得到词和文档的稠密向量表示,可以发现潜在的语义信息 ( 比如主题等 )。

4. 概率主题模型 ( Probabilistic Topic Models )

概率主题模型比词袋模型多引入了一个 "主题 ( Topic )" 作为隐变量。词和文档的之间关联变成了:文档 -> 主题 -> 词。这个想法合情合理,听上去就更好。如果你觉得哪里不好,又可以魔改。概率主题模型的数学基础 ( 概率有向图模型 ) 十分漂亮,并且基于吉布斯采样的推断简单到不可思议,甚至不需要图模型的知识就可以理解。PTM 是前深度学习时代 NLP 领域的一个大宝矿 ( Shui Keng )!

5. 基于 BMES 的中文分词或基于 BIO 的 NER/Chunking

BMES 是 Begin/Middle/End/Single 的缩写,代表所标记的字符是一个词语的开始/中间/结尾/单字词。

BIO 是 Begin/Inside/Outside 的缩写,表示所标记的词是一个实体名的开始/内部/外部。

这种标记将带有分割性质的 NLP 任务转换为序列标注任务,可以使用 HMM、CRF 等成熟的机器学习模型。

6. 基于 PageRank 的 TextRank

PageRank 本身非常巧妙了,TextRank 更是巧妙地将 PageRank 应用到 NLP 中的词排序或句子排序上面,比如关键词抽取、文本摘要等。

参考资料:

1. "Linguistic items with similar distributions have similar meanings." 

https://en.wikipedia.org/wiki/Distributional_semantics

2. term-document matrix

https://en.wikipedia.org/wiki/Term-document_matrix

原文链接:

https://www.zhihu.com/question/356132676/answer/901244271

分享嘉宾

邱锡鹏,复旦大学计算机科学技术学院 副教授,博士生导师,于复旦大学获得理学学士和博士学位。中国中文信息学会青年工作委员会执委、计算语言学专委会委员、中国人工智能学会青年工作委员会常务委员、自然语言理解专委会委员。主要研究领域包括人工智能、机器学习、深度学习、自然语言处理等,并且在上述领域的顶级期刊、会议(ACL/EMNLP/IJCAI/AAAI等)上发表过50余篇论文。自然语言处理开源工具FudanNLP作者,2015年入选首届中国科协青年人才托举工程,2017年ACL杰出论文奖。

——END——

文章推荐:

自然语言处理中的多任务学习

阿里妈妈:品牌广告中的 NLP 算法实践

深度学习在360搜索广告 NLP 任务中的应用

DataFun:

专注于大数据、人工智能领域的知识分享平台。

一个「在看」,一段时光!👇

登录查看更多
0

相关内容

复旦大学计算机科学技术学院副教授,博士生导师。于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,在ACL、EMNLP、AAAI、IJCAI等计算机学会A/B类期刊、会议上发表50余篇学术论文,引用 1900余次。开源中文自然语言处理工具FudanNLP作者,FastNLP项目负责人。2015年入选首届中国科协人才托举工程,2017年ACL杰出论文奖,2018年获中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。 个人主页:https://xpqiu.github.io/
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
210+阅读 · 2020年4月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
深度学习自然语言处理概述,116页ppt,Jiří Materna
专知会员服务
78+阅读 · 2020年3月10日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
Word2Vec与Glove:词嵌入方法的动机和直觉
论智
14+阅读 · 2018年6月23日
不懂 word2vec,还敢说自己是做 NLP 的?
AI研习社
8+阅读 · 2018年5月4日
NLP的这一年:深度学习或成主角
论智
3+阅读 · 2017年12月14日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
ACL 2017自然语言处理精选论文
CSDN大数据
5+阅读 · 2017年9月14日
ACL 2017自然语言处理精选论文解读
人工智能头条
5+阅读 · 2017年9月13日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
3+阅读 · 2018年4月3日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
相关VIP内容
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
210+阅读 · 2020年4月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
深度学习自然语言处理概述,116页ppt,Jiří Materna
专知会员服务
78+阅读 · 2020年3月10日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
相关资讯
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
Word2Vec与Glove:词嵌入方法的动机和直觉
论智
14+阅读 · 2018年6月23日
不懂 word2vec,还敢说自己是做 NLP 的?
AI研习社
8+阅读 · 2018年5月4日
NLP的这一年:深度学习或成主角
论智
3+阅读 · 2017年12月14日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
ACL 2017自然语言处理精选论文
CSDN大数据
5+阅读 · 2017年9月14日
ACL 2017自然语言处理精选论文解读
人工智能头条
5+阅读 · 2017年9月13日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
相关论文
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
3+阅读 · 2018年4月3日
Arxiv
5+阅读 · 2018年3月16日
Top
微信扫码咨询专知VIP会员