We present Wan-Move, a simple and scalable framework that brings motion control to video generative models. Existing motion-controllable methods typically suffer from coarse control granularity and limited scalability, leaving their outputs insufficient for practical use. We narrow this gap by achieving precise and high-quality motion control. Our core idea is to directly make the original condition features motion-aware for guiding video synthesis. To this end, we first represent object motions with dense point trajectories, allowing fine-grained control over the scene. We then project these trajectories into latent space and propagate the first frame's features along each trajectory, producing an aligned spatiotemporal feature map that tells how each scene element should move. This feature map serves as the updated latent condition, which is naturally integrated into the off-the-shelf image-to-video model, e.g., Wan-I2V-14B, as motion guidance without any architecture change. It removes the need for auxiliary motion encoders and makes fine-tuning base models easily scalable. Through scaled training, Wan-Move generates 5-second, 480p videos whose motion controllability rivals Kling 1.5 Pro's commercial Motion Brush, as indicated by user studies. To support comprehensive evaluation, we further design MoveBench, a rigorously curated benchmark featuring diverse content categories and hybrid-verified annotations. It is distinguished by larger data volume, longer video durations, and high-quality motion annotations. Extensive experiments on MoveBench and the public dataset consistently show Wan-Move's superior motion quality. Code, models, and benchmark data are made publicly available.


翻译:本文提出Wan-Move,一个简单且可扩展的框架,为视频生成模型引入了运动控制功能。现有的运动可控方法通常存在控制粒度粗糙和可扩展性有限的问题,导致其输出难以满足实际应用需求。我们通过实现精确且高质量的运动控制来缩小这一差距。核心思想是直接使原始条件特征具备运动感知能力,以指导视频合成。为此,我们首先利用密集点轨迹表示物体运动,实现对场景的细粒度控制。随后,将这些轨迹投影到潜在空间,并沿每条轨迹传播首帧特征,生成对齐的时空特征图,以指示每个场景元素的运动方式。该特征图作为更新后的潜在条件,无需修改架构即可自然集成到现成的图像到视频模型(如Wan-I2V-14B)中作为运动引导。该方法无需辅助运动编码器,并使基础模型的微调易于扩展。通过规模化训练,Wan-Move可生成5秒、480p的视频,用户研究表明其运动可控性媲美Kling 1.5 Pro的商业化Motion Brush功能。为支持全面评估,我们进一步设计了MoveBench——一个精心构建的基准测试集,涵盖多样化的内容类别和混合验证标注,其特点在于数据量更大、视频时长更长且运动标注质量更高。在MoveBench和公开数据集上的大量实验一致表明Wan-Move具有卓越的运动生成质量。代码、模型及基准数据均已开源。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员