Video diffusion models achieve strong frame-level fidelity but still struggle with motion coherence, dynamics and realism, often producing jitter, ghosting, or implausible dynamics. A key limitation is that the standard denoising MSE objective provides no direct supervision on temporal consistency, allowing models to achieve low loss while still generating poor motion. We propose MoGAN, a motion-centric post-training framework that improves motion realism without reward models or human preference data. Built atop a 3-step distilled video diffusion model, we train a DiT-based optical-flow discriminator to differentiate real from generated motion, combined with a distribution-matching regularizer to preserve visual fidelity. With experiments on Wan2.1-T2V-1.3B, MoGAN substantially improves motion quality across benchmarks. On VBench, MoGAN boosts motion score by +7.3% over the 50-step teacher and +13.3% over the 3-step DMD model. On VideoJAM-Bench, MoGAN improves motion score by +7.4% over the teacher and +8.8% over DMD, while maintaining comparable or even better aesthetic and image-quality scores. A human study further confirms that MoGAN is preferred for motion quality (52% vs. 38% for the teacher; 56% vs. 29% for DMD). Overall, MoGAN delivers significantly more realistic motion without sacrificing visual fidelity or efficiency, offering a practical path toward fast, high-quality video generation. Project webpage is: https://xavihart.github.io/mogan.


翻译:视频扩散模型在帧级保真度方面表现优异,但在运动连贯性、动态性和真实感方面仍存在不足,常产生抖动、重影或不合逻辑的动态效果。一个关键局限在于,标准去噪均方误差目标未提供对时间一致性的直接监督,使得模型在损失较低的情况下仍可能生成质量较差的运动。我们提出MoGAN,一种以运动为中心的后训练框架,无需奖励模型或人类偏好数据即可提升运动真实感。该框架基于一个3步蒸馏的视频扩散模型构建,我们训练了一个基于DiT的光流判别器来区分真实与生成的运动,并结合分布匹配正则化器以保持视觉保真度。在Wan2.1-T2V-1.3B上的实验表明,MoGAN在多个基准测试中显著提升了运动质量。在VBench上,MoGAN的运动得分比50步教师模型提高了+7.3%,比3步DMD模型提高了+13.3%。在VideoJAM-Bench上,MoGAN的运动得分比教师模型提高了+7.4%,比DMD模型提高了+8.8%,同时保持相当甚至更优的美学和图像质量得分。一项人类研究进一步证实,MoGAN在运动质量上更受青睐(与教师模型相比为52%对38%;与DMD相比为56%对29%)。总体而言,MoGAN在不牺牲视觉保真度或效率的前提下,提供了显著更真实的运动,为快速、高质量的视频生成提供了一条实用路径。项目网页为:https://xavihart.github.io/mogan。

0
下载
关闭预览

相关内容

Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员