你说“神马”?非正式汉语数据集资源上线,帮你训练网络语言处理

2018 年 12 月 1 日 量子位
晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI

NLP是个好东西,但是汉语文化实在是博大精深,连长辈都看不懂网络词语,想让机器理解它们就更难了。

如果我们还用“正经”训练数据集,那就明显不够用了。

为了解决这个问题,有人从有人收集了3700万条图书评论和5万条bbs回帖,作为大型非正式汉语数据集(LSICC)。

内容来源分别是“豆瓣读书”和Chiphell论坛。

下面请从数据集中感受一下网络论坛文化的洗礼:

作者从Chiphell中选取了几个主题的回帖,其中有大量的网络用语,甚至还有中英文混用。

“辣鸡”当然不是辣味的鸡,“木有”也不是说木头。如果用正经训练集得到的模型去识别它们,结果恐怕会惨不忍睹。

据统计,这个数据集中非正式用语的比例远远高于一般其他数据集,在7.5亿词语中,非正式用语出现了62万次。比例远高于人民日报这样的官方媒体。

结果表明,现实世界自然语言模型处理和现有语料库的语言之间差距明显。

如果使用从正式汉语语料库中提取的向量表示作为单词嵌入,可能导致不良的表现。

所以,如果你需要训练模型去识别网络语言,那一定要尝试一下这个数据集。

这些抓取内容也并非直接可用,好在作者进行了一些预处理,删除了其中较短的句子,另外也对文中的英文单词做了识别。

资源地址:

豆瓣读书评论:
https://github.com/JaniceZhao/Douban-Dushu-Dataset.git

Chiphell回帖:
https://github.com/JaniceZhao/Chinese-Forum-Corpus.git

作者将豆瓣读书评论的内容整理成csv表格,Chiphell回帖则整理成json文件格式。


登录查看更多
0

相关内容

网络语言是由网民创造、最先于网络交流中使用的语言。
最新《多任务学习》综述,39页pdf
专知会员服务
259+阅读 · 2020年7月10日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
84+阅读 · 2019年12月27日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
11+阅读 · 2019年6月19日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Arxiv
4+阅读 · 2018年2月13日
VIP会员
相关资讯
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
Top
微信扫码咨询专知VIP会员