资源 | 中文NLP资源库

2018 年 11 月 22 日 机器学习算法与Python学习
乾明 编辑整理
量子位 出品 | 公众号 QbitAI

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。

词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。

否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。

地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

目前,这份资源在GitHub上已经超过了700星。

收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。

在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。

比如,中英文敏感词过滤:

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

有时,还会针对一些词库给出提示,针对这个词库他就提示道:

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。

再来一个根据名字判断性别的例子:

pip install ngender # 基于朴素贝叶斯计算的概率

>>> import ngender
>>> ngender.guess('赵本山')
('male'0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female'0.9759486128949907)

此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。

传送门:(点击阅读原文即可访问
https://github.com/fighting41love/funNLP

作者知乎专栏地址:
https://zhuanlan.zhihu.com/yangyangfuture


推荐阅读

一个理工屌丝男的本硕博十年大学生活综述

资源 | 英语不行?你可以试试TensorFlow官方中文版教程

下载 | 384页NLP多任务联合学习教程(PPT)

这是一份超全机器学习&深度学习资源清单(105个AI站点),请收藏!

Python编辑器你选哪个?我选PyCharm

20张图表达程序员的心酸

登录查看更多
20

相关内容

NLP:自然语言处理
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
专知会员服务
215+阅读 · 2020年5月6日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
248+阅读 · 2019年11月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
NLP - 15 分钟搭建中文文本分类模型
AINLP
79+阅读 · 2019年1月29日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
中国人工智能学会
9+阅读 · 2018年11月16日
Arxiv
14+阅读 · 2020年2月6日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2016年1月15日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
专知会员服务
215+阅读 · 2020年5月6日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
248+阅读 · 2019年11月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
NLP - 15 分钟搭建中文文本分类模型
AINLP
79+阅读 · 2019年1月29日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
中国人工智能学会
9+阅读 · 2018年11月16日
Top
微信扫码咨询专知VIP会员