超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

医疗健康需要具备预测性、可靠性和数据高效性的人工智能。然而，近期的生成式模型缺乏临床决策支持所需的物理基础与时间推理能力。随着语言模型在具身（grounded）临床推理上的扩展呈现收益递减，世界模型正受到越来越多关注，因为它们能够学习多模态、时间一致（temporally coherent）且动作条件化（action-conditioned）的表征，这些表征反映了医疗过程的物理与因果结构。本文回顾了用于医疗系统的世界模型，它们通过学习可预测的动态来实现多步推演、反事实评估与规划。我们调研了三个主要方向的最新工作：（i）医学影像与诊断（例如，肿瘤的纵向模拟、投影-迁移建模，以及 JEPA-风格的预测表征学习，即 Joint Embedding Predictive Architecture）；（ii）基于电子健康记录的疾病进展建模（大规模生成式事件预测）；以及（iii）机器人手术与手术规划（动作条件化的引导与控制）。我们同时提出一个能力层级量表： * L1：时间预测（temporal prediction） * L2：动作条件化预测（action-conditioned prediction） * L3：用于决策支持的反事实推演（counterfactual rollouts） * L4：规划/控制（planning/control）

当前大多数研究系统达到 L1–L2，能够实现 L3 的较少，而 L4 则非常罕见。我们识别了限制临床可靠性的跨领域共性问题： * 行为空间与安全约束定义不足（under-specified action spaces and safety constraints） * 干预性验证薄弱（weak interventional validation） * 多模态状态构建不完整（incomplete multimodal state construction） * 轨迹级不确定性校准有限（limited trajectory-level uncertainty calibration）

本综述提出了一条面向临床稳健性的、以预测为先（prediction-first）的世界模型研究路线：结合生成式基础架构（如 Transformer、扩散模型、VAE）与因果/力学基础，以实现医疗场景中安全可靠的决策支持。

1 引言

医疗健康系统正面临来自人口老龄化、慢性疾病以及医护人员短缺的巨大压力。全球人口正在快速老龄化（预计到 2030 年每 6 人中就有 1 人年龄超过 60 岁）[1]，而到 2030 年全球医护人员缺口预计将超过 1000 万人[1]。这些趋势导致临床数据持续快速增长，凸显了依赖人工智能提升医疗质量与效率的必要性。在过去十年间，医疗领域的人工智能已从传统统计模型发展到深度学习，并在近期进入大规模生成式模型时代。深度神经网络在医学影像与诊断中取得突破，推动其在放射学、病理学等领域的广泛应用[2, 3, 4, 5, 6, 7]。基于 Transformer 架构的大型语言模型（LLMs）如今在临床自然语言处理任务上表现强劲（例如在 USMLE 上达到接近专家水平）[8]。与此同时，图像生成模型也已成为重要工具：扩散模型能够生成逼真的 MRI/CT 用于数据增强与匿名化[9, 10, 11]，而 VAE 及相关框架可以生成跨模态的合成患者数据[12]。这些进展展示了 Transformer、扩散模型及 VAE 如何重塑医学研究与实践，促进更优的预测、数据增强与科学发现。

然而，生成式模型并不足以支撑高风险医疗任务。它们缺乏对临床现实的物理、空间和因果结构的“扎根”，并可能产生看似合理却错误的结果（“幻觉”），带来潜在危险[8]。因此需要一种“预测优先（prediction-first）”、基于世界模型的替代方案：模型需学习可预测的动态，通常形式化为 p(st+1∣st,at)p(s_{t+1}\mid s_t, a_t)p(st+1∣st,at)，或采用未来潜变量预测目标（例如 JEPA，Joint Embedding Predictive Architecture）[13]。

在这一范式下，**世界模型（World Model, WM）**是一种对状态动态进行建模的显式生成模型，能够支持内部模拟、反事实评估与规划。早期研究表明，智能体可以学习紧凑的潜在“世界”，并在其中训练策略，再迁移到真实环境中取得成功[14]；近期的医学 AI 也开始在临床影像与手术模拟中探索类似理念[15]。本文首次对医疗健康领域的世界模型进行聚焦综述，涵盖医学影像与诊断、疾病进展建模以及机器人手术/手术规划。为比较异构方法，我们提出了一个能力量表：L1 时间预测（temporal prediction）；L2 动作条件化预测（action-conditioned prediction）；L3 用于决策支持的反事实推演（counterfactual rollouts）；L4 规划/控制（planning/control）。我们分析这些工作如何从生成式建模与基于模型的推理中借鉴概念，评估当前的研究进展，并指出未解决的挑战。由于医疗世界模型仍处于早期阶段，系统性的综合能够帮助引导研究方向、突出机会，并澄清临床 AI 这一新兴领域的发展路径。

成为VIP会员查看完整内容

相关内容

生成式人工智能

关注 36

生成式人工智能是利用复杂的算法、模型和规则，从大规模数据集中学习，以创造新的原创内容的人工智能技术。这项技术能够创造文本、图片、声音、视频和代码等多种类型的内容，全面超越了传统软件的数据处理和分析能力。2022年末，OpenAI推出的ChatGPT标志着这一技术在文本生成领域取得了显著进展，2023年被称为生成式人工智能的突破之年。这项技术从单一的语言生成逐步向多模态、具身化快速发展。在图像生成方面，生成系统在解释提示和生成逼真输出方面取得了显著的进步。同时，视频和音频的生成技术也在迅速发展，这为虚拟现实和元宇宙的实现提供了新的途径。生成式人工智能技术在各行业、各领域都具有广泛的应用前景。

VIP会员