Soundini：声音导向扩散用于自然视频编辑 (Soundini: Sound-Guided Diffusion for Natural Video Editing) - 专知论文

会员服务 ·

0

时间一致性 · 视频 · 一致 · 波浪 · 光流 ·

2023 年 4 月 13 日

Soundini: Sound-Guided Diffusion for Natural Video Editing

翻译：Soundini：声音导向扩散用于自然视频编辑

Seung Hyun Lee,Sieun Kim,Innfarn Yoo,Feng Yang,Donghyeon Cho,Youngseo Kim,Huiwen Chang,Jinkyu Kim,Sangpil Kim

We propose a method for adding sound-guided visual effects to specific regions of videos with a zero-shot setting. Animating the appearance of the visual effect is challenging because each frame of the edited video should have visual changes while maintaining temporal consistency. Moreover, existing video editing solutions focus on temporal consistency across frames, ignoring the visual style variations over time, e.g., thunderstorm, wave, fire crackling. To overcome this limitation, we utilize temporal sound features for the dynamic style. Specifically, we guide denoising diffusion probabilistic models with an audio latent representation in the audio-visual latent space. To the best of our knowledge, our work is the first to explore sound-guided natural video editing from various sound sources with sound-specialized properties, such as intensity, timbre, and volume. Additionally, we design optical flow-based guidance to generate temporally consistent video frames, capturing the pixel-wise relationship between adjacent frames. Experimental results show that our method outperforms existing video editing techniques, producing more realistic visual effects that reflect the properties of sound. Please visit our page: https://kuai-lab.github.io/soundini-gallery/.

翻译：我们提出了一种方法，用于在零样本设定下向视频的特定区域添加声音导向的视觉效果。动画化视觉效果的外观是具有挑战性的，因为在保持时间一致性的同时，编辑视频的每一帧都应具有视觉变化。此外，现有的视频编辑解决方案侧重于跨帧的时间一致性，而忽略了随时间变化的视觉风格变化，例如雷暴，波浪，火焰的爆裂。为了克服这种限制，我们利用时间声音特征来实现动态风格。具体而言，我们使用音-视空间中的音频潜在表示来指导噪声扩散概率模型。据我们所知，我们的工作是首次探索从具有声音专业属性（例如强度，音色和音量）的各种声源进行声音导向的自然视频编辑。此外，我们设计了基于光流的指导来生成时间一致的视频帧，捕获相邻帧之间的像素关系。实验结果表明，我们的方法优于现有的视频编辑技术，可以产生更逼真的视觉效果，反映了声音的特性。请访问我们的页面：https://kuai-lab.github.io/soundini-gallery/。

0

相关内容

时间一致性

时间一致性

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

专知会员服务

43+阅读 · 2023年6月2日

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

专知会员服务

21+阅读 · 2022年7月7日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

15+阅读 · 2022年4月11日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

29+阅读 · 2022年3月28日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

40+阅读 · 2022年3月12日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

22+阅读 · 2022年3月3日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

19+阅读 · 2020年8月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

161+阅读 · 2020年3月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

23+阅读 · 2019年12月15日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

91+阅读 · 2019年10月16日

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

机器之心

1+阅读 · 2022年7月31日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

41+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

16+阅读 · 2018年12月24日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

统计学习与视觉计算组

17+阅读 · 2018年3月16日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

1+阅读 · 2015年12月31日

基于卫星遥感的区域高分辨率氮氧化物排放量反演模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

目标跟踪中的时空上下文建模方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于稀疏优化的空时分布密集多径信号估计方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多级孔纳米结构上Ce/Zr基催化剂联合低温等离子体脱除VOCs的基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

成年外周神经系统中神经发生的一种新模式—背根节感觉神经元前体的来源、特征及proBDNF对其分化成熟的研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

面向不确定性的Web2.0用户创作内容管理研究

国家自然科学基金

0+阅读 · 2011年12月31日

Diffusion Self-Guidance for Controllable Image Generation

Arxiv

0+阅读 · 2023年6月1日

Controllable Motion Diffusion Model

Arxiv

0+阅读 · 2023年6月1日

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model

Arxiv

0+阅读 · 2023年5月31日

Direct Diffusion Bridge using Data Consistency for Inverse Problems

Arxiv

0+阅读 · 2023年5月31日

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Arxiv

0+阅读 · 2023年5月31日

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

Arxiv

0+阅读 · 2023年5月30日

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

Arxiv

0+阅读 · 2023年5月29日

Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning

Arxiv

0+阅读 · 2023年5月29日

Restormer-Plus for Real World Image Deraining: the Runner-up Solution to the GT-RAIN Challenge (CVPR 2023 UG2+ Track 3)

Arxiv

0+阅读 · 2023年5月26日

A Survey on Generative Diffusion Model

Arxiv

44+阅读 · 2022年9月6日

VIP会员

文章信息

相关主题

时间一致性

相关VIP内容

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

专知会员服务

43+阅读 · 2023年6月2日

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

专知会员服务

21+阅读 · 2022年7月7日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

15+阅读 · 2022年4月11日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

29+阅读 · 2022年3月28日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

40+阅读 · 2022年3月12日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

22+阅读 · 2022年3月3日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

19+阅读 · 2020年8月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

161+阅读 · 2020年3月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

23+阅读 · 2019年12月15日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

91+阅读 · 2019年10月16日

热门VIP内容

相关资讯

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

机器之心

1+阅读 · 2022年7月31日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

41+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

16+阅读 · 2018年12月24日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

统计学习与视觉计算组

17+阅读 · 2018年3月16日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

相关论文

Diffusion Self-Guidance for Controllable Image Generation

Arxiv

0+阅读 · 2023年6月1日

Controllable Motion Diffusion Model

Arxiv

0+阅读 · 2023年6月1日

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model

Arxiv

0+阅读 · 2023年5月31日

Direct Diffusion Bridge using Data Consistency for Inverse Problems

Arxiv

0+阅读 · 2023年5月31日

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Arxiv

0+阅读 · 2023年5月31日

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

Arxiv

0+阅读 · 2023年5月30日

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

Arxiv

0+阅读 · 2023年5月29日

Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning

Arxiv

0+阅读 · 2023年5月29日

Restormer-Plus for Real World Image Deraining: the Runner-up Solution to the GT-RAIN Challenge (CVPR 2023 UG2+ Track 3)

Arxiv

0+阅读 · 2023年5月26日

A Survey on Generative Diffusion Model

Arxiv

44+阅读 · 2022年9月6日

相关基金

基于多源视频的大范围场景目标跟踪

国家自然科学基金

1+阅读 · 2015年12月31日

基于卫星遥感的区域高分辨率氮氧化物排放量反演模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

目标跟踪中的时空上下文建模方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于稀疏优化的空时分布密集多径信号估计方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多级孔纳米结构上Ce/Zr基催化剂联合低温等离子体脱除VOCs的基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

成年外周神经系统中神经发生的一种新模式—背根节感觉神经元前体的来源、特征及proBDNF对其分化成熟的研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

面向不确定性的Web2.0用户创作内容管理研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员