Panorama generation has recently attracted growing interest in the research community, with two core tasks, text-to-panorama and view-to-panorama generation. However, existing methods still face two major challenges: their U-Net-based architectures constrain the visual quality of the generated panoramas, and they usually treat the two core tasks independently, which leads to modeling redundancy and inefficiency. To overcome these challenges, we propose a joint-face panorama (JoPano) generation approach that unifies the two core tasks within a DiT-based model. To transfer the rich generative capabilities of existing DiT backbones learned from natural images to the panorama domain, we propose a Joint-Face Adapter built on the cubemap representation of panoramas, which enables a pretrained DiT to jointly model and generate different views of a panorama. We further apply Poisson Blending to reduce seam inconsistencies that often appear at the boundaries between cube faces. Correspondingly, we introduce Seam-SSIM and Seam-Sobel metrics to quantitatively evaluate the seam consistency. Moreover, we propose a condition switching mechanism that unifies text-to-panorama and view-to-panorama tasks within a single model. Comprehensive experiments show that JoPano can generate high-quality panoramas for both text-to-panorama and view-to-panorama generation tasks, achieving state-of-the-art performance on FID, CLIP-FID, IS, and CLIP-Score metrics.


翻译:全景图生成近来在学术界日益受到关注,其核心任务包括文本到全景图生成和视角到全景图生成。然而,现有方法仍面临两大挑战:其基于U-Net的架构限制了生成全景图的视觉质量,且通常将两个核心任务独立处理,导致建模冗余和效率低下。为克服这些挑战,我们提出了一种联合面全景图(JoPano)生成方法,将两个核心任务统一在一个基于DiT的模型中。为了将现有DiT骨干网络从自然图像中学习到的丰富生成能力迁移至全景图领域,我们提出了一种基于全景图立方体贴图表示的联合面适配器,使预训练的DiT能够联合建模并生成全景图的不同视图。我们进一步应用泊松融合来减少立方体面边界处常出现的接缝不一致问题。相应地,我们引入了接缝SSIM和接缝Sobel指标来定量评估接缝一致性。此外,我们提出了一种条件切换机制,将文本到全景图和视角到全景图任务统一在单一模型中。综合实验表明,JoPano能够在文本到全景图和视角到全景图生成任务中均生成高质量的全景图,在FID、CLIP-FID、IS和CLIP-Score指标上均达到了最先进的性能。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员