We present a large, challenging dataset, COUGH, for COVID-19 FAQ retrieval. Similar to a standard FAQ dataset, COUGH consists of three parts: FAQ Bank, Query Bank and Relevance Set. The FAQ Bank contains ~16K FAQ items scraped from 55 credible websites (e.g., CDC and WHO). For evaluation, we introduce Query Bank and Relevance Set, where the former contains 1,236 human-paraphrased queries while the latter contains ~32 human-annotated FAQ items for each query. We analyze COUGH by testing different FAQ retrieval models built on top of BM25 and BERT, among which the best model achieves 48.8 under P@5, indicating a great challenge presented by COUGH and encouraging future research for further improvement. Our COUGH dataset is available at https://github.com/sunlab-osu/covid-faq.


翻译:我们为COVID-19 FAQ检索提供了一个庞大的、具有挑战性的数据集,COUGH。类似于标准的FAQ数据集,COUGH由三部分组成:FAQ Bank、Query Bank and International Set。FAQ Bank 包含从55个可信的网站(如CDC和WHO)中剪掉的~16K FAQ项目。为了评估,我们引入了Query Bank and Internity Set, 前者包含1,236个人类口号查询,而后者包含每份查询的~32个人类附加说明的FAQ项目。我们通过测试建在BM25和BERT上方的FAQ检索模型来分析COUGH,其中最佳模型在P@5下达到48.8,表明COUGH提出了巨大的挑战,并鼓励今后的研究进一步改进。我们的COUGH数据集可在https://github.com/sunlab-osu/covid-faq查阅。

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年8月25日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
24+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Keras实例:PointNet点云分类
专知
6+阅读 · 2020年5月30日
牛逼!深度学习又添新框架,来自Facebook 【Pythia】
机器学习算法与Python学习
7+阅读 · 2019年6月25日
用 TensorFlow hub 在 Keras 中做 ELMo 嵌入
AI研习社
5+阅读 · 2019年5月12日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
Arxiv
0+阅读 · 2021年10月29日
Arxiv
12+阅读 · 2020年6月20日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年8月25日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
24+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Keras实例:PointNet点云分类
专知
6+阅读 · 2020年5月30日
牛逼!深度学习又添新框架,来自Facebook 【Pythia】
机器学习算法与Python学习
7+阅读 · 2019年6月25日
用 TensorFlow hub 在 Keras 中做 ELMo 嵌入
AI研习社
5+阅读 · 2019年5月12日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
Top
微信扫码咨询专知VIP会员