Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

会员服务 ·

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

2018 年 4 月 10 日 AI研习社 孔令双

本库是 NLP 中使用的包含了文本数据的免费/公共域数据集，这些数据集已经按字母顺序排好。这里的大多数数据只是原始的非结构化文本数据，如果你需要寻找注释的语料库或 Treebanks，请参阅底部的源代码。

Apache Software Foundation Public Mail Archives：截至 2011 年 7 月 11 日的所有公开可用的 Apache Software Foundation 邮件存档（200 GB） (200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
Blog Authorship Corpus：2004 年 8 月从 blogger.com 收集的 19,320 位博主收集的帖子组成。共 681,288 个帖子和超过 1.4 亿字。 (298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
Amazon Fine Food Reviews [Kaggle]：亚马逊用户在 2012 年 10 月前留下的 568,454 条食评(240 MB)。
https://www.kaggle.com/snap/amazon-fine-food-reviews
Amazon Reviews：斯坦福收集的 3500 万条亚马逊评论(11 GB)。
https://snap.stanford.edu/data/web-Amazon.html
ArXiv：所有关于归档的论文全文（270 GB）+ 源文件（190 GB）。
http://arxiv.org/help/bulk_data_s3
ASAP Automated Essay Scoring [Kaggle]：本次比赛有八篇文集，每一组文章都是由一个提示生成的。选择的论文回答的平均长度从 150 到 550 个字不等。一些论文依赖于源信息，而其他论文则不是。所有回复都是由 7 年级到 10 年级的学生撰写的。所有的论文都是手工评分，并进行了双重评分。 (100 MB)
https://www.kaggle.com/c/asap-aes/data
ASAP Short Answer Scoring [Kaggle]：每个数据集都是由单个提示生成的，选定的回复每个回复的平均长度为 50 个字。一些论文依赖于源信息，而其他论文则不是。所有回复均由 10 年纪的学生主要在1写成。所有回复均为手动分级并进行双重评分 (35 MB)。
https://www.kaggle.com/c/asap-sas/data
Classification of political social media：来自政客的社交媒体消息内容 (4 MB)。
https://www.crowdflower.com/data-for-everyone/
CLiPS Stylometry Investigation (CSI) Corpus：每年扩展两种类型的学生文章语料库：散文和评论。这个语料库的目的主要在于测图研究，但也可以作其他用途。
http://www.clips.uantwerpen.be/datasets/csi-corpus
ClueWeb09 FACC：带有 Freebase 注释的 ClueWeb09 (72 GB)
http://lemurproject.org/clueweb09/FACC1/
ClueWeb11 FACC：带有 Freebase 注释的 ClueWeb11 (92 GB)
http://lemurproject.org/clueweb12/FACC1/
Common Crawl Corpus：由超过 50 亿个网页组成的爬虫数据 (541 TB)。
http://aws.amazon.com/de/datasets/common-crawl-corpus/
Cornell Movie Dialog Corpus：大量电影对白集合，来自 10,292 对电影角色间的 220,579 条对话，囊括 617 部电影(9.5 MB)。
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
Crosswikis：英语短语相关维基百科文章数据库(11 GB)。
http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/