下载 | 最全中文文本分类模型库,上手即用

2019 年 10 月 17 日 机器学习算法与Python学习
本文转自『大数据文摘』


如何选择合适的模型上手进行中文文本分类呢?


别慌,福利来了,GitHub上一位名为“huwenxing”(胡文星)的用户上传了一个项目,里面包含了7个基于Pytorch的文本分类模型,并提供了一个样本数据集,这对新手党来说,简直不要太方便!


GitHub链接:
https://github.com/649453932/Chinese-Text-Classification-Pytorch


项目中,作者对7个模型都进行了训练和测试,最终得出了一个效果的对比列表,可以让大家更快的使用各种模型来搭建baseline,也能很快的对各个模型在该任务上的表现有大概了解,之后决定用哪个模型。

数据集


作者从THUCNews中抽取了20万条新闻标题,文本长度在20到30之间。一共10个类别,每类2万条。类别是:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。


其中,作者用了18万条作为训练集,一万作为验证集,一万作为测试集。


预训练词向量下载:
https://pan.baidu.com/s/14k-9jsspp43ZhMxqPmsWMQ


而如果要替换自己的数据集的话:
  • 如果用字,按照我数据集的格式来格式化你的数据。
  • 如果用词,提前分好词,词之间用空格隔开,python run.py --model TextCNN --word True
  • 使用预训练词向量:utils.py的main函数可以提取词表对应的预训练词向量。

模型效果

作者主要测试了TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention, DPCNN, Transformer,这七个文本分类模型。


得出的结果如下:


  
这七个模型都放在了项目的“models”文件夹中:



直接按以下代码调用即可:


     
     
       
# 训练并测试:# TextCNNpython run.py --model TextCNN
# TextRNNpython run.py --model TextRNN
# TextRNN_Attpython run.py --model TextRNN_Att
# TextRCNNpython run.py --model TextRCNN
# FastText, embedding层是随机初始化的python run.py --model FastText --embedding random
# DPCNNpython run.py --model DPCNN
# Transformerpython run.py --model Transformer

如此方便的模型库在此,还不赶紧上手试试?

推荐阅读
清华学生计划表上热搜,大写的服!
官方教程 | 60分钟入门PyTorch,手把手教你训练第一个深度学习模型
手把手教你应对这15种“烂代码”
16个机器学习算法推导及项目案例 XGBoost | GBDT ......
登录查看更多
30

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
67+阅读 · 2019年11月25日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
54+阅读 · 2019年10月29日
注意力机制模型最新综述
专知会员服务
260+阅读 · 2019年10月20日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
NLP - 15 分钟搭建中文文本分类模型
AINLP
79+阅读 · 2019年1月29日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
收藏!CNN与RNN对中文文本进行分类--基于TENSORFLOW实现
全球人工智能
12+阅读 · 2018年5月26日
word2vec中文语料训练
全球人工智能
12+阅读 · 2018年4月23日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
11+阅读 · 2019年6月19日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
5+阅读 · 2016年1月15日
Arxiv
8+阅读 · 2014年6月27日
VIP会员
相关VIP内容
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
67+阅读 · 2019年11月25日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
54+阅读 · 2019年10月29日
注意力机制模型最新综述
专知会员服务
260+阅读 · 2019年10月20日
相关资讯
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
NLP - 15 分钟搭建中文文本分类模型
AINLP
79+阅读 · 2019年1月29日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
收藏!CNN与RNN对中文文本进行分类--基于TENSORFLOW实现
全球人工智能
12+阅读 · 2018年5月26日
word2vec中文语料训练
全球人工智能
12+阅读 · 2018年4月23日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
相关论文
Arxiv
29+阅读 · 2020年3月16日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
11+阅读 · 2019年6月19日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
5+阅读 · 2016年1月15日
Arxiv
8+阅读 · 2014年6月27日
Top
微信扫码咨询专知VIP会员