Pre-trained language models such as ClinicalBERT have achieved impressive results on tasks such as medical Natural Language Inference. At first glance, this may suggest that these models are able to perform medical reasoning tasks, such as mapping symptoms to diseases. However, we find that standard benchmarks such as MedNLI contain relatively few examples that require such forms of reasoning. To better understand the medical reasoning capabilities of existing language models, in this paper we introduce DisKnE, a new benchmark for Disease Knowledge Evaluation. To construct this benchmark, we annotated each positive MedNLI example with the types of medical reasoning that are needed. We then created negative examples by corrupting these positive examples in an adversarial way. Furthermore, we define training-test splits per disease, ensuring that no knowledge about test diseases can be learned from the training data, and we canonicalize the formulation of the hypotheses to avoid the presence of artefacts. This leads to a number of binary classification problems, one for each type of reasoning and each disease. When analysing pre-trained models for the clinical/biomedical domain on the proposed benchmark, we find that their performance drops considerably.


翻译:临床自然语言推断等预先培训的语言模型在医学自然语言推断等任务上取得了令人印象深刻的成果。 乍一看,这可能表明这些模型能够执行医学推理任务,例如疾病症状的绘图。 然而,我们发现,MedNLI等标准基准中只有较少需要这种推理的例子。 为了更好地了解现有语言模型的医疗推理能力,我们在本文件中引入了疾病知识评估的新基准DisKnE。为了构建这一基准,我们用所需的医学推理类型对每个正面的MedNLI例进行附加说明。我们随后通过以对抗方式腐蚀这些正面例子创造了负面的例子。此外,我们界定了每一种疾病的培训-测试分解,确保无法从培训数据中学习有关测试疾病的知识,并且我们可以将假设的提法化以避免工艺品的存在。这导致一系列二元分类问题,每一种推理和每一种疾病。在对临床/生物医学领域的预先培训模型进行分析时,我们发现其性能显著下降。

0
下载
关闭预览

相关内容

机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
3+阅读 · 2019年11月28日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员