Vision-language models (VLMs) have demonstrated strong cross-modal capabilities, yet most work remains limited to 2D data and assumes binary supervision (i.e., positive vs. negative pairs), overlooking the continuous and structured dependencies present in volumetric data such as CT. Existing approaches often treat volumetric scans as independent 2D slices, compromising spatial coherence and underutilizing rich clinical semantics. We propose SCALE-VLP, a soft-weighted contrastive vision-language pre-training framework that integrates (i) volumetric spatial semantics to preserve anatomical structure and (ii) domain-aware, knowledge-infused semantics (e.g., radiological ontologies) to guide alignment. This yields structurally consistent and semantically grounded representations under limited supervision, demonstrating strong cross-task transferability (retrieval, report generation, and classification), and cross-domain generalizability with consistent gains without further fine-tuning. In particular, compared to the previous state of the art, SCALE-VLP achieves up to 4.3x higher top-1 CT-report retrieval, improves abnormality classification by 10 points, and reaches ROUGE-L 0.44 and BERT-F1 0.89 for report generation. Further, in zero-shot evaluation on an out-of-domain external dataset, we observe consistent gains, indicating the cross-task and cross-domain generalization ability of SCALE-VLP.


翻译:视觉-语言模型(VLMs)已展现出强大的跨模态能力,但现有研究大多局限于二维数据并采用二元监督(即正样本对与负样本对),忽略了如CT等体数据中存在的连续结构化依赖关系。现有方法通常将体数据扫描视为独立的二维切片处理,这破坏了空间连贯性且未能充分利用丰富的临床语义。我们提出SCALE-VLP,一种软加权对比式视觉-语言预训练框架,该框架整合了:(i)体数据空间语义以保持解剖结构完整性;(ii)领域感知的知识注入语义(如放射学本体)以指导对齐。该框架在有限监督下生成结构一致且语义扎根的表征,展现出强大的跨任务迁移能力(检索、报告生成与分类)以及跨领域泛化能力,无需微调即可获得稳定性能提升。具体而言,相较于先前最优方法,SCALE-VLP在CT-报告检索任务中实现最高4.3倍的Top-1准确率提升,异常分类任务提高10个百分点,在报告生成任务中达到ROUGE-L 0.44和BERT-F1 0.89。此外,在跨领域外部数据集的零样本评估中,我们观察到稳定的性能增益,这证明了SCALE-VLP具备跨任务与跨领域的泛化能力。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员