Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

2018 年 4 月 10 日 AI研习社 孔令双

本库是 NLP 中使用的包含了文本数据的免费/公共域数据集,这些数据集已经按字母顺序排好。这里的大多数数据只是原始的非结构化文本数据,如果你需要寻找注释的语料库或 Treebanks,请参阅底部的源代码。

  • Apache Software Foundation Public Mail Archives:截至 2011 年 7 月 11 日的所有公开可用的 Apache Software Foundation 邮件存档(200 GB) (200 GB)

    http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

  • Blog Authorship Corpus:2004 年 8 月从 blogger.com 收集的 19,320 位博主收集的帖子组成。共 681,288 个帖子和超过 1.4 亿字。 (298 MB)

    http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

  • Amazon Fine Food Reviews [Kaggle]:亚马逊用户在 2012 年 10 月前留下的 568,454 条食评(240 MB)。

    https://www.kaggle.com/snap/amazon-fine-food-reviews

  • Amazon Reviews:斯坦福收集的 3500 万条亚马逊评论(11 GB)。

    https://snap.stanford.edu/data/web-Amazon.html

  • ArXiv:所有关于归档的论文全文(270 GB)+ 源文件(190 GB)。

    http://arxiv.org/help/bulk_data_s3

  • ASAP Automated Essay Scoring [Kaggle]:本次比赛有八篇文集,每一组文章都是由一个提示生成的。选择的论文回答的平均长度从 150 到 550 个字不等。一些论文依赖于源信息,而其他论文则不是。所有回复都是由 7 年级到 10 年级的学生撰写的。所有的论文都是手工评分,并进行了双重评分。 (100 MB)

    https://www.kaggle.com/c/asap-aes/data

  • ASAP Short Answer Scoring [Kaggle]:每个数据集都是由单个提示生成的,选定的回复每个回复的平均长度为 50 个字。一些论文依赖于源信息,而其他论文则不是。所有回复均由 10 年纪的学生主要在1写成。所有回复均为手动分级并进行双重评分 (35 MB)。

    https://www.kaggle.com/c/asap-sas/data

  • Classification of political social media:来自政客的社交媒体消息内容 (4 MB)。

    https://www.crowdflower.com/data-for-everyone/

  • CLiPS Stylometry Investigation (CSI) Corpus:每年扩展两种类型的学生文章语料库:散文和评论。这个语料库的目的主要在于测图研究,但也可以作其他用途。

    http://www.clips.uantwerpen.be/datasets/csi-corpus

  • ClueWeb09 FACC:带有 Freebase 注释的 ClueWeb09 (72 GB)

    http://lemurproject.org/clueweb09/FACC1/

  • ClueWeb11 FACC:带有 Freebase 注释的 ClueWeb11 (92 GB)

    http://lemurproject.org/clueweb12/FACC1/

  • Common Crawl Corpus:由超过 50 亿个网页组成的爬虫数据 (541 TB)。

    http://aws.amazon.com/de/datasets/common-crawl-corpus/

  • Cornell Movie Dialog Corpus:大量电影对白集合,来自 10,292 对电影角色间的 220,579 条对话,囊括 617 部电影(9.5 MB)。

    http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

  • Crosswikis:英语短语相关维基百科文章数据库(11 GB)。

    http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

更多 NLP 数据集请访问以下 Github 页面:

https://github.com/niderhoff/nlp-datasets/blob/master/README.md

4 月 AI 求职季

8 大明星企业

10 场分享盛宴

20 小时独门秘籍

4.10-4.19,我们准时相约!



新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据资料】



新加坡国立大学霍华德:NLP 都有哪些有意思的事儿?

登录查看更多
12

相关内容

【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
自然语言处理数据集免费资源开放(附学习资料)
Arxiv
21+阅读 · 2019年3月25日
Arxiv
6+阅读 · 2018年7月12日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
相关资讯
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
自然语言处理数据集免费资源开放(附学习资料)
Top
微信扫码咨询专知VIP会员