Multimodal brain decoding aims to reconstruct semantic information that is consistent with visual stimuli from brain activity signals such as fMRI, and then generate readable natural language descriptions. However, multimodal brain decoding still faces key challenges in cross-subject generalization and interpretability. We propose a BrainROI model and achieve leading-level results in brain-captioning evaluation on the NSD dataset. Under the cross-subject setting, compared with recent state-of-the-art methods and representative baselines, metrics such as BLEU-4 and CIDEr show clear improvements. Firstly, to address the heterogeneity of functional brain topology across subjects, we design a new fMRI encoder. We use multi-atlas soft functional parcellations (soft-ROI) as a shared space. We extend the discrete ROI Concatenation strategy in MINDLLM to a voxel-wise gated fusion mechanism (Voxel-gate). We also ensure consistent ROI mapping through global label alignment, which enhances cross-subject transferability. Secondly, to overcome the limitations of manual and black-box prompting methods in stability and transparency, we introduce an interpretable prompt optimization process. In a small-sample closed loop, we use a locally deployed Qwen model to iteratively generate and select human-readable prompts. This process improves the stability of prompt design and preserves an auditable optimization trajectory. Finally, we impose parameterized decoding constraints during inference to further improve the stability and quality of the generated descriptions.


翻译:多模态脑解码旨在从fMRI等脑活动信号中重建与视觉刺激一致的语义信息,进而生成可读的自然语言描述。然而,多模态脑解码在跨被试泛化与可解释性方面仍面临关键挑战。我们提出了BrainROI模型,并在NSD数据集的脑图文描述评估中取得了领先水平的结果。在跨被试设定下,与近期最先进方法及代表性基线相比,BLEU-4和CIDEr等指标均显示出明显提升。首先,为解决不同被试间功能脑拓扑结构的异质性问题,我们设计了一种新型fMRI编码器。我们采用多图谱软功能分区(soft-ROI)作为共享空间,将MINDLLM中的离散脑区拼接策略扩展为体素级门控融合机制(Voxel-gate),并通过全局标签对齐确保脑区映射的一致性,从而增强跨被试迁移能力。其次,为克服人工提示与黑盒提示方法在稳定性和透明度方面的局限,我们引入了可解释的提示优化流程。在小样本闭环中,利用本地部署的Qwen模型迭代生成并筛选人类可读的提示,这一过程提升了提示设计的稳定性,并保留了可审计的优化轨迹。最后,我们在推理阶段施加参数化解码约束,以进一步提升生成描述的稳定性与质量。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员