摘要—深度学习已深刻改变了遥感领域,但当前主流架构如卷积神经网络(CNNs)和视觉变换器(ViTs)仍受到一些关键权衡的限制:CNNs受到有限感受野的影响,而ViTs则面临二次计算复杂度问题,这限制了它们在高分辨率遥感数据中的可扩展性。状态空间模型(SSMs),尤其是最近提出的Mamba架构,已成为一种范式转变的解决方案,将线性计算扩展性与全局上下文建模相结合。本文综述了基于Mamba的遥感方法,系统地分析了约120项研究,构建了创新和应用的全面分类。我们的贡献从五个维度展开:(i)视觉Mamba架构的基础原理;(ii)微架构进展,如自适应扫描策略和混合SSM公式;(iii)宏观架构整合,包括CNN-Transformer-Mamba混合体和频域适配;(iv)对比多种应用任务(如目标检测、语义分割、变化检测等)中最先进方法的严格基准测试;(v)对未解决挑战的批判性分析并提出可行的未来方向。通过架起SSM理论与遥感实践之间的桥梁,本综述确立了Mamba作为遥感分析的变革性框架。据我们所知,本文是首个关于Mamba架构在遥感中的系统性综述。我们的工作为通过基于SSM的方法推动遥感系统研究提供了结构化的基础。我们建立了一个开源资源库(https://github.com/BaoBao0926/Awesome-Mamba-in-Remote-Sensing),以促进社区驱动的进步。
关键词—视觉Mamba,遥感,综合综述,状态空间模型,扫描策略
I. 引言
遥感领域的最新进展通过深度学习方法取得了显著的进展,尤其是在从复杂数据中提取特征方面[1],[2]。传统架构,特别是卷积神经网络(CNNs)和视觉变换器(ViTs)[3],[4],在这一领域取得了显著的成功。然而,遥感影像的固有特征对基于CNN和ViTs的网络的进一步优化构成了挑战:(1)丰富的空间依赖关系:遥感影像展现了复杂的空间关系,这些关系往往超出了CNN的局部建模能力,尽管CNN具有线性计算复杂度和多功能建模能力[5]–[7];(2)高分辨率:遥感影像的超高分辨率对基于Transformer的模型提出了巨大的计算需求,往往导致不可接受的计算复杂度。尽管存在这些固有限制,CNN和ViT长期以来主导了遥感应用,促使研究人员探索能够以线性计算效率实现全局建模的架构。 为了解决这些挑战,基于状态空间模型(SSM)的方法作为一种有前景的替代方案应运而生,提供了线性计算复杂度和全局建模能力。这两大特性恰好克服了CNN和ViT在遥感应用中的局限性。SSM源自经典系统理论,已经在强化学习[8]、计算神经科学[9]和控制系统[10]等多个学科中得到了广泛应用。SSM将输入序列映射到潜在状态,这些状态封装了历史上下文,从而使得根据隐藏状态进行序列预测成为可能。一些研究尝试将SSM融入深度学习框架[11]–[21]。早期的SSM实现面临计算瓶颈,直到结构化状态空间序列(S4)模型[11]通过参数化状态矩阵解决了这些限制。随后,Mamba[20]引入了选择性状态空间序列(S6),通过回归步长参数结合动态时间感知机制,实现了通过隐藏状态的上下文感知信息传播或遗忘。Mamba架构[20]通过简化的门控SSM块进一步推进了这一范式,取得了最先进的(SOTA)性能。凭借其在高分辨率影像上的线性可扩展性、捕获远程空间依赖关系的能力以及卓越的特征表示能力,基于Mamba的架构展现出了作为下一代遥感任务解决方案的强大潜力,弥合了计算效率与全局建模之间的差距。 Mamba技术最初是为自然语言处理(NLP)开发的,经过标志性研究[20],迅速扩展到计算机视觉(CV)领域。与ViT[3]类似,创新的基于Mamba的架构,如视觉Mamba(Vim)[22]和视觉Mamba(VMamba)[23],采用补丁嵌入和多方向扫描策略,将2D图像转换为1D序列,使其与Mamba的处理范式兼容。基于这些基础工作,遥感社区迅速探索了Mamba的潜力,许多研究[24]–[36]已将Mamba架构应用于克服特定领域的挑战。这些创新推动了基于Mamba的模型在各种遥感任务中取得SOTA性能,包括目标检测[24]–[26]、密集预测[27]–[30]等。 尽管已有若干综述[1],[37]–[41],它们往往强调特定于自然影像的问题解决方法,常常忽视或低估遥感影像的独特特性。因此,我们进行了一项专门针对遥感领域的综合综述,详细介绍了Mamba技术在该领域的当前研究进展、应用及潜在的未来趋势。据我们所知,这是第一篇关于视觉Mamba技术在遥感中的综述,将进一步惠及遥感领域。 贡献:本综述在Mamba基础架构在遥感领域的新兴研究中做出了若干重要贡献。首先,我们系统地介绍了Mamba的基础概念,随后简要回顾了大约20篇关于视觉Mamba主干架构的论文。接着,我们回顾并汇总了约120篇遥感领域的论文。我们的分析从微观和宏观架构两个视角进行,提供了对遥感领域Mamba进展的全面理解。 微观架构进展:我们考察了Mamba块内部机制的三项关键进展: * SSM公式优化:虽然Mamba[20]为深度学习提供了SSM的初步适应,随后的工作进一步优化了这一公式。我们是首个系统地回顾该领域SSM公式改进的研究。 * 扫描策略:我们提出了一种新的扫描策略分类法(对将2D/3D影像处理为1D序列至关重要),包含五个要素:预处理、扫描采样、扫描方向、扫描模式和后处理。该框架首次全面地将预处理和后处理阶段纳入扫描策略。 * 多模态与双时序特征交互:专注于遥感应用,我们将现有方法分为四种不同的方式来处理多模态数据和双时序交互。我们的分析提供了基于Mamba架构的多模态与双时序交互的首个详细审视。
宏观架构进展:我们分析了四项创新进展,推动整体架构的进展: * 混合架构:我们分析了Mamba与CNN和Transformer的整合,考察了基本堆叠块和整体架构设计。 * 框架适配中的替代:我们调查了Mamba块如何融入现有框架,如U-Net[42]、YOLO[43]和扩散模型[44]。 * 学习范式:除了传统的监督学习外,我们的综述还涵盖了无监督学习、自监督学习和提示学习范式的应用。 * 频域操作:我们记录了将频域操作(如快速傅里叶变换、2D离散余弦变换和小波变换)融入Mamba架构的实现。
随后,我们对Mamba在遥感影像中的应用进行了全面总结和分析,如分类、目标检测和语义分割。这包括整理并比较现代架构方法的性能,包括Mamba、Transformer和CNN,从而进行全面的比较研究,突出每种架构在特定应用领域的优缺点。最后,基于Mamba在遥感领域的当前发展趋势,我们提出了几个潜在的未来趋势。这些建议旨在为持续和未来的研究工作提供有价值的见解,并为遥感技术的发展指明方向。 综述范围:本综述全面考察了遥感领域中与视觉Mamba相关的基础文献。我们将回顾的范围限制为2025年2月前在Arxiv上发布或出现的预印本。尽管有许多涉及视觉Mamba在自然影像和视频中的工作,我们仅包含最具代表性的研究。 组织结构:综述的其余部分按以下结构组织。总体而言,图1展示了本综述的流程。我们首先在第II节介绍了Mamba的基础知识,接着在第III节详细回顾了视觉Mamba的主干架构。然后,我们探讨了Mamba架构的具体进展,第IV节讨论了微观架构进展,第V节讨论了宏观架构进展。第VI节比较了几个下游任务的实验结果。最后,我们在第VII节提出了当前挑战和未来方向,并在第VIII节总结了综述。