We have constructed NAIST Academic Travelogue Dataset (ATD) and released it free of charge for academic research. This dataset is a Japanese text dataset with a total of over 31 million words, comprising 4,672 Japanese domestic travelogues and 9,607 overseas travelogues. Before providing our dataset, there was a scarcity of widely available travelogue data for research purposes, and each researcher had to prepare their own data. This hinders the replication of existing studies and fair comparative analysis of experimental results. Our dataset enables any researchers to conduct investigation on the same data and to ensure transparency and reproducibility in research. In this paper, we describe the academic significance, characteristics, and prospects of our dataset.


翻译:我们构建了NAIST学术游记数据集(ATD)并免费公开发布,供学术研究使用。该数据集为日语文本数据集,总词汇量超过3100万,包含4672篇日本国内游记和9607篇海外游记。在提供本数据集之前,广泛可用的游记研究数据较为匮乏,每位研究者需自行准备数据,这阻碍了现有研究的复现及实验结果的公平比较分析。我们的数据集使所有研究者能在相同数据基础上开展研究,确保研究的透明度与可重复性。本文阐述了该数据集的学术意义、特征及未来展望。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
116+阅读 · 2020年5月24日
【精通OpenCV 4】Mastering OpenCV 4 - Third Edition 随书代码
专知会员服务
40+阅读 · 2019年11月13日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员