摘要 — 多模态大型语言模型(MLLMs)近年来已成为人工智能研究领域的热点。依托大型语言模型(LLMs)的强大能力,MLLMs 在处理复杂的多模态任务方面展现出卓越性能。随着 GPT-4 的发布,MLLMs 引发了来自多个领域的广泛关注。研究人员已开始探索 MLLMs 在医学与医疗健康领域的潜力。本文首先介绍了与 LLMs 和 MLLMs 相关的背景与基本概念,重点阐述了 MLLMs 的工作原理。随后,我们总结了 MLLMs 在医疗健康中的三大主要应用方向:医学报告生成、疾病诊断与医疗治疗。我们的研究基于对该领域 330 篇最新文献的系统性回顾,并通过具体示例展示了 MLLMs 在上述领域中的强大能力。在数据方面,我们总结了六种主流数据模态及其相应的评估基准。最后,本文讨论了 MLLMs 在医学与医疗健康领域面临的主要挑战,并提出了相应的缓解策略与解决方法。 关键词 — 综述,大型语言模型,多模态大型语言模型,医学,医疗健康,临床应用

1 引言

语言模型在自然语言处理(NLP)任务中发挥着重要作用。通过理解和生成文本,这些模型能够执行多种语言相关任务,如文本抽取、情感分析等。在语言模型的发展过程中,谷歌于2017年提出的 Transformer 架构是一个重要的里程碑 [1]。该架构是一种依赖于自注意力机制的深度学习模型,通过并行计算提升了处理效率。模型为输入的不同部分分配不同的注意力权重,从而增强了其对文本语义的理解能力。随着 Transformer 的发布,模型的规模和参数数量不断扩大,标志着大型语言模型(LLMs)时代的到来。 在此背景下,一系列 LLMs 被相继提出。其中,基于 Transformer 构建的 BERT 模型 [2],通过掩码语言建模(Masked Language Modeling)和下一句预测(Next Sentence Prediction)等预训练任务,能够有效理解上下文语义。此外,一些开源的 LLMs,如 Flan-T5 [3]、Vicuna [4] 和 LLaMA [5],也在该领域取得了显著进展,推动了 LLMs 的发展。 在医学健康领域,LLMs 被应用于提升医疗工作的质量。它们在生成基于电子健康记录(EHR)、病程记录、医患对话等医疗文本的简洁准确报告等特定任务中发挥了关键作用。尽管医学领域涉及文本、图像、视频、音频、组学数据等多种模态,如何高效利用并恰当地融合这些多模态数据,已成为应对复杂医疗任务的发展趋势。 近年来,基于 LLMs 并能够处理多模态任务的多模态大型语言模型(MLLMs)进入公众视野。目前大多数 MLLMs 拥有相似的结构,它们以 LLMs 为核心,在输入端引入编码器,在输出端结合扩散生成模型。为了解决多模态任务而设计的某些模块也不断被优化,例如 CLIP [6]、BLIP [7]、BLIP-2 [8],以及适用于少样本学习的 Flamingo [9]。为了处理多模态医学数据,MLLMs 被逐步引入医学领域。例如,MLLMs 主要被应用于医学图文任务,如基于图像数据(如 CT 扫描)和文本知识生成诊断报告等。 然而,由于准确性不稳定以及专业性存疑,医学界仍对 MLLMs 是否能够胜任临床应用持保留态度。我们认为,为了在临床医疗中实现 MLLMs 的有效部署,这些模型应满足专业化需求。通过我们的调研,我们总结了 MLLMs 在医学应用中需要满足的一些基本要求,包括但不限于专业性、准确性、幻觉(hallucination)控制、公平性等多个方面,同时也介绍了相应的评估基准。 基于医学界的关注点与上述要求,我们进一步总结了 MLLMs 在医疗健康背景下面临的一系列挑战。为应对这些问题,已有部分可行性研究成果被提出。通过优化评估基准、持续攻克挑战,我们对 MLLMs 在临床场景中的应用前景持乐观态度。

2 基础知识

**2.1 大型语言模型(LLMs)

语言模型能够理解并生成自然语言。其发展大致可分为四个阶段:统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)以及大型语言模型(LLM)。各阶段的代表性模型如图 1 所示。 大型语言模型依托大规模数据集的预训练和 Transformer 架构,在多个任务中表现出色。以 GPT 系列和 LLaMA 为代表的模型,都采用 Transformer 作为核心结构。Transformer 中的自注意力机制和并行计算能力,使其能高效处理长文本序列,从而支持对大规模数据的处理,并实现模型参数的大幅扩展。这种结构化的模型设计不仅促进了模型的深度学习能力,也显著提升了其在文本生成、翻译、复杂问答等多种任务中的适用性。

**2.2 多模态大型语言模型(MLLMs)

为应对不断扩展的数据模态(如文本、图像、音频等),多模态大型语言模型(MLLMs)成为人工智能研究的热点。借助多模态数据,模型可以更全面地理解并完成任务。MLLMs 主要由处理文本数据的大型语言模型(LLM)和处理其他模态数据的编码器组成。在 LLM 的编码器与其他模态之间,通常设置一个对齐模块,用于将文本输入与其他模态输入对齐至统一的特征空间。 根据具体任务需求,灵活选取合适的预训练 LLM 和模态编码器,MLLMs 已在多个领域取得显著突破。本节将介绍 MLLMs 的主要组成部分,以及一些经典的预训练任务。 在构建应用模型时,通常可根据特定需求灵活组合多种预训练任务。例如,在医疗健康领域,Med-MLLM [25] 是一个面向未来疫情的医学多模态大型语言模型,旨在实现 COVID-19 的报告、诊断和预后分析。该模型在预训练阶段采用了三层级的任务设计。 首先,在图像模块的训练中,模型采用了对比学习方法。具体做法包括对来自同一患者的不同类型医学影像(如胸部 X 光和 CT 图像)进行对比训练,结合图像增强和正则化技术,最小化来自同一患者的图像之间的损失,从而提升模型对个体生理特征的理解能力。 其次,在语言模块方面,模型采用了典型的文本预训练任务,如掩码语言建模(MLM)、句子重构、以及结果-印象对齐任务,以增强模型在文本理解和生成方面的能力。 最后,在图文多模态预训练方面,方法借鉴了类似于 CLIP 的图文对比学习策略,并进一步融合 UMLS [26] 知识库和预设目标,从而提升模型对医学知识的整合能力。 通过上述三个方面的预训练,Med-MLLM 能够有效应对多种任务,包括 COVID-19 报告生成(即医学报告生成)、疾病诊断(即疾病分类)及预后预测(即结果预测)。

3 应用

通过利用医学图像、文本病历、医学教材和音频等多种模态的医疗数据,多模态大型语言模型(MLLMs)能够全面理解任务需求,从而高效执行医学任务,如图 2 所示。 本章将介绍 MLLMs 在医疗健康领域的主要应用,包括医学报告生成、临床沟通与指导、以及手术辅助等方面。


**3.1 医学报告生成

医学报告有助于医生进行诊断和制定治疗方案,同时也是传递医疗信息的重要载体,使医护人员能够追踪疾病进展。每天都需要有经验的放射科医生或专家撰写大量医学报告,这不仅耗费大量时间和人力资源,还容易因人为失误而出现报告内容错误,从而导致误诊或治疗延误。因此,借助人工智能技术高效生成准确的医学报告成为一个具有前景的研究方向。 大量研究表明,通过在医疗数据上微调训练,LLMs 在处理医学文本方面表现出强大能力 [27], [28], [29]。借助该能力,LLMs 可以与多模态模块协同,根据不同模态的数据生成医学报告。 目前的主流方法是使用 MLLMs 生成医学报告。其基本思路是以医学图像(如 X 光 [30]、CT [31], [32]、MRI [33],甚至三维扫描图像 [34])为输入,并结合对应的图像描述文本,构建图文对,作为训练 MLLMs 的输入。例如,X-ray GPT 将 X 光图像输入一个冻结的视觉编码器以提取图像特征,随后通过可学习的线性转换层进行对齐,将图像特征与文本对齐,再输入基于 Vicuna 且在医学数据上微调过的 LLM。最后,通过如“请说明该 X 光片的主要发现与印象”等提示语引导模型生成文本描述,从而实现有效的图文理解与文本生成。 预训练阶段对于医学报告生成模型至关重要,其效果决定了模型对图像和文本数据的利用效率。研究表明,尽管临床报告通常遵循“发现-印象”格式,但其结构混乱、不规范 [35],且包含大量冗余信息,不利于模型训练。当前一些研究提出了通过标准化或重构文本格式来帮助模型聚焦核心内容的方法 [19], [35]。例如,MedKLIP [36] 使用三元组提取模块将图像描述压缩为“外观-位置-存在”三要素,减少理解负担。 目前 MLLMs 生成报告时大多偏重“印象”部分,缺乏深度推理能力,导致部分模型虽在基准测试上表现优异,但在真实临床应用中表现较差 [37]。为提升模型推理能力,有研究提出应使用包含完整推理过程的文本进行训练 [38], [39],如符合“发现-印象”结构的报告。 应注意,医学报告不同于一般文本生成任务,其具备严格的逻辑结构,通常由详细观察与对应总结组成 [40],并需满足医学术语的标准化要求。可通过引入句子重构(SR)[25]、掩码语言建模(MLM)等任务,使模型学习专家书写风格。此外,为处理如“cardiomegaly”被错误拆分为“card-io-me-gal-y”等问题,可构建特定医学词典并定期更新 [42]。 MLLMs 也可辅助完成前置任务,如记录与总结医生的口述内容 [43], [44],从而减轻工作压力。在医学影像方面,MLLMs 可应用于图像分割,聚焦关键区域并执行基于弱监督的操作指令 [45], [46]。


**3.2 专业且富有同理心的医学沟通

近年来,聊天机器人在多个领域获得广泛关注,尤其在医疗健康领域展现出广阔前景。早期研究主要基于单一模态(如文本)训练聊天模型,借助医生-患者对话数据 [18], [80] 和医学 VQA 数据 [17] 微调模型,取得了良好效果。 随着具备多模态能力的 MLLMs 的快速发展,聊天机器人能够处理图像、视频等模态输入。例如,SkinGPT4 [24] 在大量皮肤数据上微调后,可提供专业皮肤病建议;LLaVA-Med [22] 可处理医学图像,执行 X 光、CT、MRI 等影像的 VQA 任务,并在多个闭源医学 VQA 数据集上实现 SOTA 性能。 尽管这些模型在数据集和评估基准上表现优异,但对“印象”的依赖可能削弱其推理能力,导致临床表现不佳 [81]。 此外,研究表明,人们仍倾向于从人类那里获得医疗服务,主要原因是互动性与亲和力 [82], [83]。对患者而言,被理解和共情与诊断准确性同样重要。现代快节奏生活和社交媒体的普及也使心理服务需求显著上升 [84], [85]。在心理治疗中,专家与患者之间的交流具有重要疗效 [86]。基于此,聊天机器人在心理咨询中表现出潜力 [87], [88],有助于缓解医疗资源压力、降低成本。由于患者在无羞耻感的环境中更易表达,机器人在某些场景下甚至优于人类 [89], [90]。 已有多个基于 LLM 的心理咨询机器人被提出 [91], [92], [93],其主要关注患者话语中的情绪、合作程度、沟通习惯等特征,使模型能通过提问、安慰、肯定、倾听、信任等方式展现同理心,并结合相关基准进行评估与优化 [94], [95]。然而,仅依赖文本仍有局限。例如,“That’s great”一句在不同面部表情或语调下可传达完全不同的情绪,如翻白眼或讽刺语调。因此,MLLMs 被引入以提取面部动作、肢体语言、眼动、语音节奏与语调,全面分析患者状态 [96], [97],实现类面对面的诊疗效果,从而缓解“缺乏共情”的问题 [91]。 医疗健康领域的聊天机器人具备及时性、低成本、高效率等特性,符合现代医疗体系的追求。在相关立法与质量监管完善后,其普及前景广阔 [98]。


**3.3 临床手术辅助

由于患者缺乏医学知识,往往需要医生或专家进行手术说明和分析。即使是经验不足的医生,也需咨询资深专家。但高级专家每日任务繁重,难以面面俱到。为缓解这一问题,计算机技术已被引入手术辅助中 [99], [100],但仍需专家解答临床问题。 近年来,部分 MLLMs 被提出用于手术场景中,辅助甚至替代专家工作。例如,通过引入 Surgery VQA 数据 [101] 并在手术视频数据上训练 MLLMs,使模型能回答手术相关问题 [74], [102]。SurgicalGPT [103] 将 GPT 与视觉编码器结合,在肾脏内窥镜图像上微调,在多个手术 VQA 数据集(EndoVis18-VQA、Cholec80-VQA、PSI-AVA-VQA)上取得 SOTA 性能。 现有手术 VQA MLLMs 多聚焦于病灶相关区域,常忽略背景信息,导致对手术流程理解片面,进而引发误判 [104]。考虑到手术动作、工具使用等因素可能蕴含背景知识,引导模型全面理解手术过程是提升模型准确性的关键 [105], [106]。未来可进一步扩展手术模型使用的数据种类,如种族、地域、EHR 与病史等,以提升模型泛化能力。 此外,借助医学报告生成的成果(见 3.1 节),MLLMs 也被用于生成手术过程分析与总结报告 [107], [108],为后续手术提供决策支持。 由于临床手术容不得错误,模型的响应与建议必须达到极高水准。尽管部分模型在封闭数据集上表现出色,距离真正的临床部署仍有较长距离。同时应明确立法责任。目前除内窥镜数据外,其他手术数据尚不足,扩展数据种类是实现手术 MLLMs 广泛应用的前提。

4 数据

在本章中,我们将探讨医疗健康领域中多模态数据的多种类型,如图 3 所示。我们将分析不同结构、类型与类别的数据如何增强模型执行多样任务的能力,并促进其在专业层面的表现。我们在表 2 和表 3 中整理了跨模态医学数据集的多种形式,用于训练目的。此外,我们还将在表 4 中列举并介绍用于训练多模态大型语言模型的现有数据集,以及在表 5 中列出用于训练传统大型语言模型的数据集。 然而,出于对隐私与安全的担忧,数据采集过程面临诸多挑战,导致医学多模态大型语言模型所需的数据相对匮乏。为应对这一问题,我们将从两个角度探讨有效的解决方案:模型优化数据增强

5 模型特性

**5.1 专业性(Professionalism)

与常规的 MLLMs 不同,医学领域的 MLLMs 被要求具备严格的专业性。简而言之,医学 MLLMs 应当拥有与专业医生相当的领域知识。目前仍可明显观察到,AI 的专业化程度尚不及人类专家 [147], [148]。为了满足临床应用与专业标准,将模型性能对齐至真实专家的能力是一种可行路径。 掌握精准的医学知识是提供医疗服务的基础。医学知识通常以文本为载体,通过使用特定的医学文本与多模态数据对模型进行微调,MLLMs 能够有效学习并应用这些知识。 在第 3 章中,我们已介绍帮助模型获取医学能力的常规方法。除了使用合适的数据格式和内容外,从临床记录与报告中构建专业医学词典,也有助于模型识别罕见医学术语,提取关键医学信息 [149], [150],这一点在处理罕见疾病时尤为重要 [151]。 评估方法: 可从多个维度评估 MLLMs 的专业性。通常,模型生成的医学报告或对话响应能提供有价值的反馈。 从表达形式来看,模型的语言应接近医学专家的表达方式。通过将模型生成的文本与临床文本比较,评估其在词汇、语义、结构和信息突显度方面的相似度,常用自然语言生成的评估指标 [152–155] 可用于衡量这些维度。通过优化这些评估指标,模型的表达可更符合专业化标准。 除了语言表达,还需关注内容的逻辑性与精确性,这是衡量专业性的核心。评估需涵盖准确性、细节、特征、逻辑等多个方面,通常通过人工或 AI 方式进行。 * 人工评估: 由专家根据多个维度(如描述准确性、细节丰富性、整体特征考虑、实际应用价值)打分 [19], [156], [157]。 * 自动评估: 包括两类:① 模型直接执行具有评估属性的任务;② 使用 AI 模拟专家对模型输出进行打分 [38], [161]。

例如,美国医学执照考试(USMLE)常用于评估 GPT 系列、Med-PaLM 等模型 [158–160]。尽管 GPT-4 和 Med-PaLM 准确率已超 86%,接近人类专家水平 [158],但在临床场景中表现仍不稳定,因其推理能力薄弱、过度依赖记忆 [38]。 使用 AI 进行自动评分的方法类似于人工评估,例如让 Gemini-Pro 与 GPT-4 扮演医学专家角色,对模型输出进行维度化评分 [161],如图 9 所示。


**5.2 幻觉问题(Hallucination)

医学 MLLMs 的输出仍受到医疗领域的质疑。除了准确性外,生成信息的可信度是评估模型的关键。幻觉(hallucination)指模型生成看似合理但实际上错误或虚假的内容 [162–165],这在医学中可能导致严重后果。 造成幻觉的原因包括:指令质量差、训练数据不足,或医疗数据更新太快,模型依赖记忆而非推理 [166–167]。 解决方案包括:

利用高质量的医学数据; * 采用专业教材作为唯一生成来源 [168]; * 设计自检结构,自我纠错 [169–170]。

在 MLLMs 中,幻觉问题更复杂:

数据不足会导致多模态信息无法正确对齐,产生误解; * 错误识别图像对象是常见诱因 [173–174]; * 模型过度依赖语言模型固有知识,忽视图像信息 [175]。

研究归纳出三类图像幻觉:

类型幻觉; 属性幻觉; 关系幻觉(如共现、反事实、虚构关系)[175–176]。

原因包括:视觉编码器参数不足、图像分辨率不够、模型未能聚焦关键区域 [177–179]。可以通过图像分割、边界引导等方式提升模型对图像细节的关注度 [175]。 评估方法:

将幻觉相关问题转化为二值判定任务,通过分析模型回答判断是否存在幻觉 [182–184]。 尽管 MLLMs 具有作为医学教育与研究信息源的潜力,但其发挥作用的前提是:高质量监督与严格质量控制。


**5.3 公平性与偏见(Fairness and Bias)

模型的准确性和专业性也会受到偏见问题的威胁,包括种族、社会角色、地域等方面。MLLMs 多基于网络数据训练,这些数据中可能包含主流偏见。 例如,[185] 指出模型对白人群体预测更高治疗费用与住院时间。在高预期生存率的医疗情境中,模型会表现出过于乐观的预估。研究发现模型可能因刻板印象降低少数族群的治疗比例 [186]。 数据集中长期聚焦特定人群会导致数据不稳定,产生偏见。例如,未被医保覆盖的弱势群体在模型预测中效果极差 [188],[25] 也指出不同地区族群在交叉验证中表现不佳。 解决方法包括:

数据层面:过滤与均衡主导类别样本,或通过反事实数据与欠采样重构数据分布 [180, 189]; * 训练策略:使用 RLHF(基于人类反馈的强化学习)提升模型对人类价值的对齐程度 [190]; * 增强同理心,使模型更具人文关怀 [191]。

评估方法:

构建结合患者信息与经典任务(如问答、报告生成)的评估体系。例如: * Harvard-FairVLMed [192]:将种族、性别等元数据整合进问答任务; * FMBench:基于 Harvard-FairVLMed 扩展,加入多种人口特征,评估模型在多样化人群下的响应表现。

成为VIP会员查看完整内容
0

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
模拟真实世界:多模态生成模型的统一综述
专知会员服务
29+阅读 · 3月7日
大规模安全:大模型安全的全面综述
专知会员服务
26+阅读 · 2月11日
定制化大型语言模型的图检索增强生成综述
专知会员服务
32+阅读 · 1月28日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
38+阅读 · 2024年12月7日
大规模语言模型的个性化:综述
专知会员服务
42+阅读 · 2024年11月4日
大型模型中的参数高效微调:方法论综述
专知会员服务
64+阅读 · 2024年11月3日
多模态持续学习的最新进展:综合综述
专知会员服务
44+阅读 · 2024年10月10日
大型语言模型疾病诊断综述
专知会员服务
30+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
70+阅读 · 2021年10月17日
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
深度学习人体姿态估计算法综述
AI前线
23+阅读 · 2019年5月19日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
模拟真实世界:多模态生成模型的统一综述
专知会员服务
29+阅读 · 3月7日
大规模安全:大模型安全的全面综述
专知会员服务
26+阅读 · 2月11日
定制化大型语言模型的图检索增强生成综述
专知会员服务
32+阅读 · 1月28日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
38+阅读 · 2024年12月7日
大规模语言模型的个性化:综述
专知会员服务
42+阅读 · 2024年11月4日
大型模型中的参数高效微调:方法论综述
专知会员服务
64+阅读 · 2024年11月3日
多模态持续学习的最新进展:综合综述
专知会员服务
44+阅读 · 2024年10月10日
大型语言模型疾病诊断综述
专知会员服务
30+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
70+阅读 · 2021年10月17日
相关资讯
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
深度学习人体姿态估计算法综述
AI前线
23+阅读 · 2019年5月19日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员