多模态基础模型——在视觉、语言及其他模态的多样化数据上训练的大规模神经网络——已成为处理、理解与生成多模态信息的强大工具。然而,我们对其基本属性及其在加速科学研究流程中的潜力仍缺乏深入理解。本论文从两个互相关联的方向出发,致力于弥补这一空白:推进多模态基础模型的科学研究,以及将其应用于科学发现

首先,我通过分析多模态基础模型的内部表征行为模式,加深了对其科学机理的理解。针对基于嵌入的多模态对比模型,我揭示并缓解了“模态鸿沟”问题——即视觉与语言表征之间持久存在的几何分离——并展示了消除这一鸿沟如何支持诸如跨模态检索多模态诊断等应用。针对生成式多模态大语言模型,我发现并应对了其在图像分类等核心能力上的意外弱点,并提出了更精确的评估策略。

其次,我探讨了这些模型如何加速科学发现过程——即揭示关于世界的未知知识的过程。我展示了多模态基础模型可作为交互式智能体,自动化复杂数据分析;也可作为虚拟实验环境,在计算机中模拟实验结果。例如,VisDi! 能识别由数千张图像组成的图像集中的细微差异,而 CellFlux 则可创建“虚拟细胞”,预测细胞对扰动的反应。这些进展为一种自动化科学发现框架铺平了道路,使系统能够自主地分析数据、生成假设、设计实验,并在仿真环境中进行快速验证。

综上所述,这两个研究方向形成了一个自我强化的循环:理论理解推动实践应用,而实践应用又反哺理论发展。这种协同效应将严谨的科学探究与变革性的现实影响相结合,为多模态智能与自动化科学的未来铺设了基础。

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员