近期多模态大语言模型(MLLMs)在图文内容理解与生成方面展现卓越能力,但其在专业领域(尤其是需资源高效与领域适配的场景)的实用性仍受限。本文提出轻量化多模态语言模型MilChat,专为分析偏远地区遥感影像(含高难度导弹发射场)设计。通过专家审核数百张航拍图像构建新数据集MilData,利用精细标注突显隐蔽军事设施。基于20亿参数开源MLLM进行监督微调,融入思维链(CoT)推理标注以提升解释准确性与可解释性,同时采用组相对策略优化(GRPO)增强模型对关键领域特征(如防御布局、核心军事设施)的检测能力,并在民用场景中最小化误报。实证评估表明,MilChat在开放式描述与分类任务上显著优于通用多模态大模型及现有遥感适配方法。在MilData基准测试中实现超80%召回率与98%精确率,验证了定向微调与强化学习在专业现实应用中的有效性。代码与数据集将在论文录用后公开。
本文贡献如下:
• 发布MilData数据集,包含专家核验的偏远区域卫星图像标注(重点关注导弹发射场)。此类区域因复杂特性呈现高度多样性且难以解析。
• 提出基于GRPO的关键词奖励函数,据我们所知,这是首个针对遥感多模态语言模型的强化学习训练方法。
• 推出MilChat模型家族——专为航拍图像开放式问答设计的20亿参数多模态小语言模型(MSLM)。
• 通过严格实验证明,在开放式问答任务中(以关键词精确率与召回率为指标),本模型性能超越现有通用型与遥感专用MLLMs,包括参数量显著更大的模型。
图1. 提出的MilChat——由思维链(CoT)与组相对策略优化(GRPO)赋能的遥感语言模型,在军事区域与导弹发射场等偏远区域描述任务中实现显著性能提升。