会员服务 ·

0

深度学习下，中文分词是否还有必要？——ACL 2019论文阅读笔记

2020 年 1 月 12 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要4分钟

跟随小博主，每天进步一丢丢

来自：NLP太难了公众号

深度学习下，中文分词是否还有必要？

原文：

Is Word Segmentation Necessary for Deep Learning of Chinese

知乎讨论：

https://zhuanlan.zhihu.com/p/65865071

https://www.zhihu.com/question/324672243/answer/715928859

Abstract

作者基于word级模型(word-based model，需要分词)和char级模型(char-based model，不需要分词)，在四个NLP任务上做对比实验(语言模型、机器翻译、句子匹配和文本分类)。

实验结果显示，基于char级模型效果总是比word级模型效果好，作者基于这些实验结果给出了一些原因。

Experiments

作者在基于中文语料的四个NLP任务(语言模型、机器翻译、句子匹配和文本分类)上进行了对比实验，比较word级模型和char级模型在这四个任务上的效果。

1. 语言模型(Language Modeling)

实验结果：

2. 机器翻译(Machine Translation)

实验结果：

3. 句子匹配/释义(Sentence Matching/Paraphrase )

4. 文本分类(Text Classification)

word级模型存在的缺陷

作者基于以上实验，探讨了word级模型可能存在导致效果下降的原因。

1. 数据稀疏(Data Sparsity)

在word级模型中，很多词出现的频率很低，导致产生了数据稀疏。而对于模型来说，要学习一个词的语义信息，需要词的数量需要达到一定量才行。因此，在word级模型中，神经网络并没有充分学习到很多单词的语义信息。

2. OOV词(Out-of-Vocabulary Words)

我们把不存在于词汇表中的词称为Out-of-Vocabulary Words，即OOV词。通常使用UNK这个记号来表示这些词。也可以对OOV词设置一个词频门限(frequency threshold)，这样出现次数低于该门槛的词就称为OOV词。对于OOV词来说，因都将其归类为了UNK，我们就拿一个word embedding来表示UNK这一类后面的所有词，模型就比较困难去学习到它的语义信息。虽然我们可以设置一个比较低的门限，但是这样会导致数据集中出现很多词频低的词，产生数据稀疏问题。

作者也使用了实验证明了这个问题。即，将训练集、验证集和测试集中的所有OOV词都剔除。实验结果显示，随着剔除的OOV词数量越多，word级模型的效果就越好，而char级模型的效果越差。因此，作者的结论是：word级模型受OOV问题困扰，而char级模型不受该问题所困扰。在word级模型中，可以通过减少数据集中的OOV词数量来解决该问题。

3. 过拟合(Overfitting)

从数据稀疏问题中的讨论，我们可以得知word级模型会有更多的参数需要被学习到，因此更容易导致产生过拟合。作者使用了dropout技术来解决这个问题。但是，实验证明dropout技术不足以解决word级模型的过拟合问题。

Conclusion

在作者所做的四组实验来看，char级模型效果几乎均好于word级模型。作者将原因归结于word级模型的三点：1.数据稀疏；2.OOV词的存在；3.过拟合。

但作者的初心并不是下一个定性的结论，而是希望大家对这个问题能有更多的探讨，毕竟，我们之前在做NLP任务时，第一步就是无脑地直接分词，确实很少考虑其合理性。

方便交流学习，备注： 昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读：

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的？

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

登录查看更多

0

相关内容

将一个汉字序列切分成一个一个单独的词

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

专知会员服务

66+阅读 · 2020年1月10日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

专知会员服务

76+阅读 · 2019年11月7日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

周志华教授：如何做研究与写论文？

周志华教授：如何做研究与写论文？

专知会员服务

158+阅读 · 2019年10月9日

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

PaperWeekly

6+阅读 · 2019年7月12日

中文NLP的分词真有必要吗？李纪为团队四项任务评测一探究竟 | ACL 2019

中文NLP的分词真有必要吗？李纪为团队四项任务评测一探究竟 | ACL 2019

AI100

5+阅读 · 2019年6月23日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

10+阅读 · 2019年6月16日

分词那些事儿

分词那些事儿

AINLP

6+阅读 · 2019年3月26日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

NLP 分词的那些事儿

NLP 分词的那些事儿

人工智能头条

8+阅读 · 2019年3月15日

如何匹配两段文本的语义？

如何匹配两段文本的语义？

黑龙江大学自然语言处理实验室

7+阅读 · 2018年7月21日

近期有哪些值得读的QA论文？| 专题论文解读

近期有哪些值得读的QA论文？| 专题论文解读

PaperWeekly

4+阅读 · 2018年6月5日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

炼数成金订阅号

3+阅读 · 2017年8月17日

Deep Learning in Video Multi-Object Tracking: A Survey

Deep Learning in Video Multi-Object Tracking: A Survey

Arxiv

58+阅读 · 2019年7月31日

Semantically Enhanced Models for Commonsense Knowledge Acquisition

Arxiv

3+阅读 · 2018年9月27日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Comparative Analysis of Neural QA models on SQuAD

Arxiv

6+阅读 · 2018年6月18日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State

Arxiv

6+阅读 · 2018年6月3日

Chinese NER Using Lattice LSTM

Arxiv

5+阅读 · 2018年5月5日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

VIP会员

相关主题

相关VIP内容

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

专知会员服务

66+阅读 · 2020年1月10日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

专知会员服务

76+阅读 · 2019年11月7日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

周志华教授：如何做研究与写论文？

周志华教授：如何做研究与写论文？

专知会员服务

158+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升海洋边境安全：基于利益相关方互操作性的解决方案》

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

从战术边缘到全球覆盖：美陆军下一代指挥控制系统及其在联合全域指挥控制中的战略影响

《不确定环境下的多智能体规划》141页

相关资讯

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

PaperWeekly

6+阅读 · 2019年7月12日

中文NLP的分词真有必要吗？李纪为团队四项任务评测一探究竟 | ACL 2019

中文NLP的分词真有必要吗？李纪为团队四项任务评测一探究竟 | ACL 2019

AI100

5+阅读 · 2019年6月23日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

10+阅读 · 2019年6月16日

分词那些事儿

分词那些事儿

AINLP

6+阅读 · 2019年3月26日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

NLP 分词的那些事儿

NLP 分词的那些事儿

人工智能头条

8+阅读 · 2019年3月15日

如何匹配两段文本的语义？

如何匹配两段文本的语义？

黑龙江大学自然语言处理实验室

7+阅读 · 2018年7月21日

近期有哪些值得读的QA论文？| 专题论文解读

近期有哪些值得读的QA论文？| 专题论文解读

PaperWeekly

4+阅读 · 2018年6月5日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

炼数成金订阅号

3+阅读 · 2017年8月17日

相关论文

Deep Learning in Video Multi-Object Tracking: A Survey

Deep Learning in Video Multi-Object Tracking: A Survey

Arxiv

58+阅读 · 2019年7月31日

Semantically Enhanced Models for Commonsense Knowledge Acquisition

Arxiv

3+阅读 · 2018年9月27日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Comparative Analysis of Neural QA models on SQuAD

Arxiv

6+阅读 · 2018年6月18日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State

Arxiv

6+阅读 · 2018年6月3日

Chinese NER Using Lattice LSTM

Arxiv

5+阅读 · 2018年5月5日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

大家都在搜

大型语言模型

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员