In this paper, we present ArCOV-19, an Arabic COVID-19 Twitter dataset that spans one year, covering the period from 27th of January 2020 till 31st of January 2021. ArCOV-19 is the first publicly-available Arabic Twitter dataset covering COVID-19 pandemic that includes about 2.7M tweets alongside the propagation networks of the most-popular subset of them (i.e., most-retweeted and -liked). The propagation networks include both retweets and conversational threads (i.e., threads of replies). ArCOV-19 is designed to enable research under several domains including natural language processing, information retrieval, and social computing. Preliminary analysis shows that ArCOV-19 captures rising discussions associated with the first reported cases of the disease as they appeared in the Arab world. In addition to the source tweets and propagation networks, we also release the search queries and language-independent crawler used to collect the tweets to encourage the curation of similar datasets.


翻译:在本文中,我们介绍ARCOV-19,这是阿拉伯文的COVID-19 Twitter数据集,为期一年,涵盖时间为2020年1月27日至2021年1月31日。ArCOV-19是第一个公开提供的涵盖COVID-19大流行病的阿拉伯推特数据集,其中包括大约2.7M Twitter,以及其中最广的传播网络(即最受质疑和最受喜爱的网络),传播网络包括雷特维特和对话线(即答复线)。ArCOV-19旨在在几个领域进行研究,包括自然语言处理、信息检索和社会计算。初步分析显示ArCOV-19捕捉到与在阿拉伯世界出现的首批报告疾病病例有关的越来越多的讨论。除了来源的推特和传播网络外,我们还发布搜索查询和依赖语言的爬行器,用来收集推特,以鼓励类似数据集的曲解。

0
下载
关闭预览

相关内容

专知会员服务
82+阅读 · 2020年12月5日
最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
【泡泡汇总】最强 SLAM Datasets 合辑
泡泡机器人SLAM
16+阅读 · 2019年5月27日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
3+阅读 · 2018年4月3日
VIP会员
相关VIP内容
专知会员服务
82+阅读 · 2020年12月5日
最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
【泡泡汇总】最强 SLAM Datasets 合辑
泡泡机器人SLAM
16+阅读 · 2019年5月27日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员