《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》 - 专知VIP

会员服务 ·

2

AI与军事 · 多模态小语言模型 ·

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近期多模态大语言模型（MLLMs）在图文内容理解与生成方面展现卓越能力，但其在专业领域（尤其是需资源高效与领域适配的场景）的实用性仍受限。本文提出轻量化多模态语言模型MilChat，专为分析偏远地区遥感影像（含高难度导弹发射场）设计。通过专家审核数百张航拍图像构建新数据集MilData，利用精细标注突显隐蔽军事设施。基于20亿参数开源MLLM进行监督微调，融入思维链（CoT）推理标注以提升解释准确性与可解释性，同时采用组相对策略优化（GRPO）增强模型对关键领域特征（如防御布局、核心军事设施）的检测能力，并在民用场景中最小化误报。实证评估表明，MilChat在开放式描述与分类任务上显著优于通用多模态大模型及现有遥感适配方法。在MilData基准测试中实现超80%召回率与98%精确率，验证了定向微调与强化学习在专业现实应用中的有效性。代码与数据集将在论文录用后公开。

本文贡献如下：
• 发布MilData数据集，包含专家核验的偏远区域卫星图像标注（重点关注导弹发射场）。此类区域因复杂特性呈现高度多样性且难以解析。
• 提出基于GRPO的关键词奖励函数，据我们所知，这是首个针对遥感多模态语言模型的强化学习训练方法。
• 推出MilChat模型家族——专为航拍图像开放式问答设计的20亿参数多模态小语言模型（MSLM）。
• 通过严格实验证明，在开放式问答任务中（以关键词精确率与召回率为指标），本模型性能超越现有通用型与遥感专用MLLMs，包括参数量显著更大的模型。

图1. 提出的MilChat——由思维链（CoT）与组相对策略优化（GRPO）赋能的遥感语言模型，在军事区域与导弹发射场等偏远区域描述任务中实现显著性能提升。

成为VIP会员查看完整内容

4

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

15+阅读 · 5月7日

《遥感基础模型研究综述：从视觉到多模态的演进》

《遥感基础模型研究综述：从视觉到多模态的演进》

专知会员服务

18+阅读 · 3月31日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 3月27日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

34+阅读 · 3月9日

《生成式人工智能（AI）在系统工程设计中的未来考虑》25页slides

《生成式人工智能（AI）在系统工程设计中的未来考虑》25页slides

专知会员服务

36+阅读 · 1月16日

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

专知会员服务

50+阅读 · 2024年12月24日

《人工智能驱动的无人机多学科概念设计》

《人工智能驱动的无人机多学科概念设计》

专知会员服务

32+阅读 · 2024年11月15日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

42+阅读 · 2024年10月19日

《兵棋推演与大型语言模型：方法、应用和稳健性》

《兵棋推演与大型语言模型：方法、应用和稳健性》

专知会员服务

29+阅读 · 2024年7月19日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

75+阅读 · 2024年4月22日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

28+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

22+阅读 · 2023年4月8日

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

专知

62+阅读 · 2022年11月19日

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

专知

33+阅读 · 2022年7月15日

【2022新书】Transformer自然语言处理：构建语言应用

【2022新书】Transformer自然语言处理：构建语言应用

专知

38+阅读 · 2022年1月31日

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

专知

21+阅读 · 2021年11月20日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

24+阅读 · 2020年10月14日

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

【紫冬精选】国内近三年模式分类研究现状综述

【紫冬精选】国内近三年模式分类研究现状综述

中国科学院自动化研究所

13+阅读 · 2018年4月3日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非线性流形学习的极化SAR特征提取与匹配技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

169+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

210+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

460+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

VIP会员

相关主题

多模态小语言模型

相关VIP内容

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

15+阅读 · 5月7日

《遥感基础模型研究综述：从视觉到多模态的演进》

《遥感基础模型研究综述：从视觉到多模态的演进》

专知会员服务

18+阅读 · 3月31日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 3月27日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

34+阅读 · 3月9日

《生成式人工智能（AI）在系统工程设计中的未来考虑》25页slides

《生成式人工智能（AI）在系统工程设计中的未来考虑》25页slides

专知会员服务

36+阅读 · 1月16日

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

专知会员服务

50+阅读 · 2024年12月24日

《人工智能驱动的无人机多学科概念设计》

《人工智能驱动的无人机多学科概念设计》

专知会员服务

32+阅读 · 2024年11月15日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

42+阅读 · 2024年10月19日

《兵棋推演与大型语言模型：方法、应用和稳健性》

《兵棋推演与大型语言模型：方法、应用和稳健性》

专知会员服务

29+阅读 · 2024年7月19日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

75+阅读 · 2024年4月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

空间智能研究报告

中文版 | 美陆军信息收集操作员工具（OPTIC）：以安全、效率与创新重塑任务规划

大型社会模拟器：前沿与展望

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

28+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

22+阅读 · 2023年4月8日

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

专知

62+阅读 · 2022年11月19日

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

专知

33+阅读 · 2022年7月15日

【2022新书】Transformer自然语言处理：构建语言应用

【2022新书】Transformer自然语言处理：构建语言应用

专知

38+阅读 · 2022年1月31日

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

专知

21+阅读 · 2021年11月20日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

24+阅读 · 2020年10月14日

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

【紫冬精选】国内近三年模式分类研究现状综述

【紫冬精选】国内近三年模式分类研究现状综述

中国科学院自动化研究所

13+阅读 · 2018年4月3日

相关基金

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非线性流形学习的极化SAR特征提取与匹配技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

169+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

210+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

460+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

微信扫码咨询专知VIP会员