收藏 | 中文公开聊天语料库及使用方法(附链接)

2019 年 3 月 12 日 THU数据派

来源:专知

本文约1000字建议阅读5分钟

该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。


语料内容


该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。



使用方法


下载语料


网盘链接:

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex


将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:


raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...


执行命令即可


python main.py


生成结果


每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。


生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer


query \t answer


Github地址:

https://github.com/codemayq


编辑:王菁

校对:林亦霖


登录查看更多
9

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
67+阅读 · 2019年11月25日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
Arxiv
38+阅读 · 2020年3月10日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年11月14日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
67+阅读 · 2019年11月25日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
相关论文
Arxiv
38+阅读 · 2020年3月10日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年11月14日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
21+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员