莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

【导读】医学问答是一个交叉性的研究问题。来自莫纳什大学等学者对医学视觉问答做了调研综述，包含数据集和方法的全面综述。

医学视觉问答(VQA)是医学人工智能和流行的VQA挑战的结合。用自然语言给出医学图像和临床相关问题，期望医学VQA系统能够给出一个可信的、令人信服的答案。虽然一般领域的VQA已经得到了广泛的研究，但医学VQA由于其任务特点，还需要具体的研究和探索。在本综述的第一部分，我们涵盖和讨论了公开可用的医学VQA数据集的最新数据来源，数据量和任务特征。在第二部分，我们回顾了在医学VQA任务中使用的方法。在最后一部分，我们分析了一些医学领域的具体挑战，并讨论了未来的研究方向。

https://www.zhuanzhi.ai/paper/1b9eebdf59618931e8d2f527312b0a2c

引言

视觉问答(VQA)[7]是一个融合了计算机视觉(CV)和自然语言处理(NLP)的多学科问题。VQA系统将根据图像内容回答与图像相关的问题。受一般领域VQA研究的启发，近年来医学VQA的探索引起了人们的极大兴趣。医学VQA系统有望协助临床决策并提高患者参与度[19,31]。与其他通常仅限于预先定义的疾病或器官类型的医学AI应用不同，医学VQA可以理解自然语言中的自由形式的问题，并提供可靠和用户友好的答案。

在最近的研究中，医学VQA可以发挥几方面作用。第一个是诊断放射科医生，作为咨询医生的专家顾问。一项工作量研究[42]显示，放射科医生平均需要在3到4秒内解读一张CT或MRI图像。除了成像研究的长队外，放射科医生还必须平均每天接听27个来自医生和患者[14]的电话，导致工作流程进一步的低效和中断。医学VQA系统可以潜在地回答医生的问题，帮助减轻医学系统的负担，提高医学专业人员的效率。另一个与VQA优势相匹配的应用是充当病理学家，检查身体组织并帮助其他医学保健提供者进行诊断。除了卫生专业人员的角色，医学VQA系统也可以作为一个知识助理。例如，VQA系统的“第二意见”可以支持临床医生解释医学图像的意见，同时降低误诊的风险[58]。最终，一个成熟和完整的医学VQA系统可以直接审查患者的图像并回答任何类型的问题。在某些情况下，例如完全自动化的健康检查，在没有医学专业人员的情况下，VQA系统可以提供等效的咨询。在医院就诊后，患者在网上搜索进一步的信息。来自搜索引擎的不规则和误导性的信息可能会导致不恰当的答案。另外，医学VQA可以集成到在线咨询系统中，随时随地提供可靠的答案。

由于以下因素，医学VQA在技术上比一般领域的VQA更具挑战性。首先，大规模医学VQA数据集的创建具有挑战性，因为专家标注对专业知识的要求很高，成本较高，且无法直接从图像中综合生成QA对。其次，根据医学图像回答问题也需要VQA模型的具体设计。该任务还需要关注细粒度的规模，因为病变是微观的。因此，可能需要分割技术来精确定位感兴趣的区域。最后，一个问题可以是非常专业的，这需要用医学知识库而不是通用语言数据库来训练模型。

自2018年[19]举办第一次医疗VQA挑战以来，越来越多的组织和研究人员加入进来，扩大任务，提出新的数据集和方法，这使医疗VQA任务成为一个积极和鼓舞人心的领域。为了全面回顾这些努力，我们对医疗VQA进行了第一次综述(据我们所知)。我们总结了本次调研的三个主要贡献: 我们回顾了公开可用的医疗VQA数据集的最新数据来源、数据数量、数据生成和任务特征。我们回顾了在医疗VQA挑战中使用的方法和在医疗VQA数据集上的最先进的方法。我们讨论了该领域的一些医学挑战，并对未来可能的研究方向提出了一些意见。