We propose VINO, the first zero-shot, training-free video editing method conditioned on both image and text. Our approach introduces $ρ$-start sampling and dilated dual masking to construct structured noise maps that enable coherent and accurate edits. To further enhance visual fidelity, we present zero image guidance, a controllable negative prompt strategy. Extensive experiments demonstrate that VINO faithfully incorporates the reference image into video edits, achieving strong performance compared to state-of-the-art baselines, all without any test-time or instance-specific training.


翻译:我们提出了VINO,首个基于图像与文本双重条件的零样本、无训练视频编辑方法。该方法引入$ρ$-起始采样与扩张双重掩码技术,通过构建结构化噪声图实现连贯且精确的编辑。为提升视觉保真度,我们提出了零图像引导策略——一种可控的负向提示技术。大量实验表明,VINO能够将参考图像忠实融入视频编辑过程,在无需任何测试阶段或实例特定训练的情况下,相较现有先进基线方法展现出卓越性能。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员