近期多模态大语言模型(MLLMs)在图文内容理解与生成方面展现卓越能力,但其在专业领域(尤其是需资源高效与领域适配的场景)的实用性仍受限。本文提出轻量化多模态语言模型MilChat,专为分析偏远地区遥感影像(含高难度导弹发射场)设计。通过专家审核数百张航拍图像构建新数据集MilData,利用精细标注突显隐蔽军事设施。基于20亿参数开源MLLM进行监督微调,融入思维链(CoT)推理标注以提升解释准确性与可解释性,同时采用组相对策略优化(GRPO)增强模型对关键领域特征(如防御布局、核心军事设施)的检测能力,并在民用场景中最小化误报。实证评估表明,MilChat在开放式描述与分类任务上显著优于通用多模态大模型及现有遥感适配方法。在MilData基准测试中实现超80%召回率与98%精确率,验证了定向微调与强化学习在专业现实应用中的有效性。代码与数据集将在论文录用后公开。

本文贡献如下:
• 发布MilData数据集,包含专家核验的偏远区域卫星图像标注(重点关注导弹发射场)。此类区域因复杂特性呈现高度多样性且难以解析。
• 提出基于GRPO的关键词奖励函数,据我们所知,这是首个针对遥感多模态语言模型的强化学习训练方法。
• 推出MilChat模型家族——专为航拍图像开放式问答设计的20亿参数多模态小语言模型(MSLM)。
• 通过严格实验证明,在开放式问答任务中(以关键词精确率与召回率为指标),本模型性能超越现有通用型与遥感专用MLLMs,包括参数量显著更大的模型。

图1. 提出的MilChat——由思维链(CoT)与组相对策略优化(GRPO)赋能的遥感语言模型,在军事区域与导弹发射场等偏远区域描述任务中实现显著性能提升。

成为VIP会员查看完整内容
4

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《人工智能驱动的无人机多学科概念设计》
专知会员服务
32+阅读 · 2024年11月15日
《大语言模型的数据合成与增强综述》
专知会员服务
42+阅读 · 2024年10月19日
《兵棋推演与大型语言模型: 方法、应用和稳健性》
专知会员服务
29+阅读 · 2024年7月19日
《生成式人工智能模型:机遇与风险》
专知会员服务
75+阅读 · 2024年4月22日
【紫冬精选】国内近三年模式分类研究现状综述
中国科学院自动化研究所
13+阅读 · 2018年4月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
460+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员