We propose a method for adding sound-guided visual effects to specific regions of videos with a zero-shot setting. Animating the appearance of the visual effect is challenging because each frame of the edited video should have visual changes while maintaining temporal consistency. Moreover, existing video editing solutions focus on temporal consistency across frames, ignoring the visual style variations over time, e.g., thunderstorm, wave, fire crackling. To overcome this limitation, we utilize temporal sound features for the dynamic style. Specifically, we guide denoising diffusion probabilistic models with an audio latent representation in the audio-visual latent space. To the best of our knowledge, our work is the first to explore sound-guided natural video editing from various sound sources with sound-specialized properties, such as intensity, timbre, and volume. Additionally, we design optical flow-based guidance to generate temporally consistent video frames, capturing the pixel-wise relationship between adjacent frames. Experimental results show that our method outperforms existing video editing techniques, producing more realistic visual effects that reflect the properties of sound. Please visit our page: https://kuai-lab.github.io/soundini-gallery/.


翻译:我们提出了一种方法,用于在零样本设定下向视频的特定区域添加声音导向的视觉效果。动画化视觉效果的外观是具有挑战性的,因为在保持时间一致性的同时,编辑视频的每一帧都应具有视觉变化。此外,现有的视频编辑解决方案侧重于跨帧的时间一致性,而忽略了随时间变化的视觉风格变化,例如雷暴,波浪,火焰的爆裂。为了克服这种限制,我们利用时间声音特征来实现动态风格。具体而言,我们使用音-视空间中的音频潜在表示来指导噪声扩散概率模型。据我们所知,我们的工作是首次探索从具有声音专业属性(例如强度,音色和音量)的各种声源进行声音导向的自然视频编辑。此外,我们设计了基于光流的指导来生成时间一致的视频帧,捕获相邻帧之间的像素关系。实验结果表明,我们的方法优于现有的视频编辑技术,可以产生更逼真的视觉效果,反映了声音的特性。请访问我们的页面:https://kuai-lab.github.io/soundini-gallery/。

0
下载
关闭预览

相关内容

【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
29+阅读 · 2022年3月28日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
44+阅读 · 2022年9月6日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员