Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.


翻译:相机与物体运动是视频叙事的关键。然而,精确编辑这些已捕捉的运动仍是一项重大挑战,尤其在复杂物体运动场景下。当前基于运动控制的图像到视频(I2V)方法常缺乏全场景上下文以实现一致性视频编辑,而视频到视频(V2V)方法虽能提供视角变换或基础物体平移,但对细粒度物体运动的控制能力有限。本文提出一种轨迹条件化的V2V框架,支持相机与物体运动的联合编辑。我们通过将视频生成模型以源视频及表征源/目标运动的配对三维点轨迹作为条件输入来实现这一目标。这些三维轨迹建立的稀疏对应关系,能在保持时空连贯性的同时,将丰富上下文从源视频迁移至新运动。关键的是,相较于二维轨迹,三维轨迹提供显式深度线索,使模型能够解析深度顺序并处理遮挡,从而实现精确运动编辑。通过在合成数据与真实数据上进行两阶段训练,我们的模型支持多样化的运动编辑,包括相机/物体联合操控、运动迁移及非刚性形变,为视频编辑开启了新的创作潜力。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员