With the rapid progress of controllable generation, training data synthesis has become a promising way to expand labeled datasets and alleviate manual annotation in remote sensing (RS). However, the complexity of semantic mask control and the uncertainty of sampling quality often limit the utility of synthetic data in downstream semantic segmentation tasks. To address these challenges, we propose a task-oriented data synthesis framework (TODSynth), including a Multimodal Diffusion Transformer (MM-DiT) with unified triple attention and a plug-and-play sampling strategy guided by task feedback. Built upon the powerful DiT-based generative foundation model, we systematically evaluate different control schemes, showing that a text-image-mask joint attention scheme combined with full fine-tuning of the image and mask branches significantly enhances the effectiveness of RS semantic segmentation data synthesis, particularly in few-shot and complex-scene scenarios. Furthermore, we propose a control-rectify flow matching (CRFM) method, which dynamically adjusts sampling directions guided by semantic loss during the early high-plasticity stage, mitigating the instability of generated images and bridging the gap between synthetic data and downstream segmentation tasks. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art controllable generation methods, producing more stable and task-oriented synthetic data for RS semantic segmentation.


翻译:随着可控生成技术的快速发展,训练数据合成已成为扩展标注数据集、缓解遥感(RS)领域人工标注负担的一种有前景的方法。然而,语义掩码控制的复杂性以及采样质量的不确定性,往往限制了合成数据在下游语义分割任务中的效用。为应对这些挑战,我们提出了一种面向任务的数据合成框架(TODSynth),包括一个具有统一三元注意力的多模态扩散Transformer(MM-DiT)以及一个由任务反馈引导的即插即用采样策略。基于强大的DiT生成基础模型,我们系统评估了不同的控制方案,结果表明,文本-图像-掩码联合注意力方案结合图像与掩码分支的全面微调,能显著提升遥感语义分割数据合成的有效性,尤其在少样本和复杂场景情况下。此外,我们提出了一种控制校正流匹配(CRFM)方法,该方法在早期高可塑性阶段,通过语义损失引导动态调整采样方向,从而缓解生成图像的不稳定性,并弥合合成数据与下游分割任务之间的差距。大量实验证明,我们的方法在遥感语义分割中持续优于当前最先进的可控生成方法,能生成更稳定且面向任务的合成数据。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
33+阅读 · 1月4日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
28+阅读 · 2020年5月25日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员