长期节奏视频音轨生成器 (Long-Term Rhythmic Video Soundtracker) - 专知论文

会员服务 ·

0

生成器 · 视频 · 音乐 · 行波 · 合成 ·

2023 年 5 月 2 日

Long-Term Rhythmic Video Soundtracker

翻译：长期节奏视频音轨生成器

Jiashuo Yu,Yaohui Wang,Xinyuan Chen,Xiao Sun,Yu Qiao

from arxiv, ICML2023

We consider the problem of generating musical soundtracks in sync with rhythmic visual cues. Most existing works rely on pre-defined music representations, leading to the incompetence of generative flexibility and complexity. Other methods directly generating video-conditioned waveforms suffer from limited scenarios, short lengths, and unstable generation quality. To this end, we present Long-Term Rhythmic Video Soundtracker (LORIS), a novel framework to synthesize long-term conditional waveforms. Specifically, our framework consists of a latent conditional diffusion probabilistic model to perform waveform synthesis. Furthermore, a series of context-aware conditioning encoders are proposed to take temporal information into consideration for a long-term generation. Notably, we extend our model's applicability from dances to multiple sports scenarios such as floor exercise and figure skating. To perform comprehensive evaluations, we establish a benchmark for rhythmic video soundtracks including the pre-processed dataset, improved evaluation metrics, and robust generative baselines. Extensive experiments show that our model generates long-term soundtracks with state-of-the-art musical quality and rhythmic correspondence. Codes are available at \url{https://github.com/OpenGVLab/LORIS}.

翻译：我们考虑如何在与节奏视觉线索同步的情况下生成音乐音轨。现有的大多数方法依赖于预定义的音乐表示，这导致生成的灵活性和复杂性不足。其他方法直接生成视频条件下的波形，但受限于应用场景、长度较短和不稳定的生成质量等问题。因此，我们提出了一种新的框架：长期节奏视频音轨生成器（LORIS），用于合成长期条件波形。具体而言，我们的框架包括一个潜变量条件扩散概率模型来执行波形合成。此外，我们还提出了一系列上下文感知的编码器，以考虑长期生成的时间信息。值得注意的是，我们将模型的适用范围从舞蹈扩展到多个体育场景，例如体操和花样滑冰。为了进行全面的评估，我们建立了一个节奏视频音轨基准，包括预处理数据集、改进的评估指标和稳健的生成基线。广泛的实验表明，我们的模型以最先进的音乐质量和节奏相应性生成长期音轨。源代码可在\url {https://github.com/OpenGVLab/LORIS}上找到。

1

相关内容

生成器

生成器是一次生成一个值的特殊类型函数。可以将其视为可恢复函数。调用该函数将返回一个可用于生成连续 x 值的生成【Generator】，简单的说就是在函数的执行过程中，yield语句会把你需要的值返回给调用生成器的地方，然后退出函数，下一次调用生成器函数的时候又从上次中断的地方开始执行，而生成器内的所有变量参数都会被保存下来供下一次使用。

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

专知会员服务

81+阅读 · 2023年6月19日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

29+阅读 · 2022年5月17日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

15+阅读 · 2022年4月11日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

26+阅读 · 2022年3月3日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

33+阅读 · 2020年6月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

161+阅读 · 2020年3月18日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

34+阅读 · 2020年3月12日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

23+阅读 · 2019年12月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

168+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

77+阅读 · 2019年10月10日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

25+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

41+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

16+阅读 · 2018年12月24日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

机器学习研究会

11+阅读 · 2017年12月5日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

半线性广义Tricomi方程Cauchy问题解的生命跨度估计研究

国家自然科学基金

0+阅读 · 2017年12月31日

高阶微分方程的周期解及多重性

国家自然科学基金

0+阅读 · 2015年12月31日

无界区域椭圆型和抛物型偏微分方程的人工边界条件数值方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

退化耗散型双曲系统的整体适定性与稳定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

非零边界条件下扰动导数非线性薛定谔方程的解析和数值研究

国家自然科学基金

0+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

新变指标Besov-Triebel-Lizorkin型函数空间及算子有界性

国家自然科学基金

0+阅读 · 2012年12月31日

面向电子巡航的内河视频智能分析算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

H-半变分不等式的非线性扰动与分数阶问题

国家自然科学基金

0+阅读 · 2012年12月31日

几类非线性随机动力学系统的近似瞬态响应

国家自然科学基金

0+阅读 · 2012年12月31日

ARFED: Attack-Resistant Federated averaging based on outlier elimination

Arxiv

0+阅读 · 2023年6月16日

UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video

Arxiv

0+阅读 · 2023年6月15日

ChessGPT: Bridging Policy Learning and Language Modeling

Arxiv

0+阅读 · 2023年6月15日

Neural models for Factual Inconsistency Classification with Explanations

Arxiv

0+阅读 · 2023年6月15日

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering

Arxiv

0+阅读 · 2023年6月15日

Top-Down Viewing for Weakly Supervised Grounded Image Captioning

Arxiv

0+阅读 · 2023年6月15日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

MetAug: Contrastive Learning via Meta Feature Augmentation

Arxiv

10+阅读 · 2022年3月10日

Sequence Level Contrastive Learning for Text Summarization

Sequence Level Contrastive Learning for Text Summarization

Arxiv

14+阅读 · 2021年9月24日

GAN Dissection: Visualizing and Understanding Generative Adversarial Networks

GAN Dissection: Visualizing and Understanding Generative Adversarial Networks

Arxiv

11+阅读 · 2018年12月8日

VIP会员

文章信息

相关主题

相关VIP内容

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

专知会员服务

81+阅读 · 2023年6月19日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

29+阅读 · 2022年5月17日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

15+阅读 · 2022年4月11日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

26+阅读 · 2022年3月3日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

33+阅读 · 2020年6月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

161+阅读 · 2020年3月18日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

34+阅读 · 2020年3月12日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

23+阅读 · 2019年12月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

168+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

77+阅读 · 2019年10月10日

热门VIP内容

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

25+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

41+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

16+阅读 · 2018年12月24日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

机器学习研究会

11+阅读 · 2017年12月5日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

相关论文

ARFED: Attack-Resistant Federated averaging based on outlier elimination

Arxiv

0+阅读 · 2023年6月16日

UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video

Arxiv

0+阅读 · 2023年6月15日

ChessGPT: Bridging Policy Learning and Language Modeling

Arxiv

0+阅读 · 2023年6月15日

Neural models for Factual Inconsistency Classification with Explanations

Arxiv

0+阅读 · 2023年6月15日

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering

Arxiv

0+阅读 · 2023年6月15日

Top-Down Viewing for Weakly Supervised Grounded Image Captioning

Arxiv

0+阅读 · 2023年6月15日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

MetAug: Contrastive Learning via Meta Feature Augmentation

Arxiv

10+阅读 · 2022年3月10日

Sequence Level Contrastive Learning for Text Summarization

Sequence Level Contrastive Learning for Text Summarization

Arxiv

14+阅读 · 2021年9月24日

GAN Dissection: Visualizing and Understanding Generative Adversarial Networks

GAN Dissection: Visualizing and Understanding Generative Adversarial Networks

Arxiv

11+阅读 · 2018年12月8日

相关基金

半线性广义Tricomi方程Cauchy问题解的生命跨度估计研究

国家自然科学基金

0+阅读 · 2017年12月31日

高阶微分方程的周期解及多重性

国家自然科学基金

0+阅读 · 2015年12月31日

无界区域椭圆型和抛物型偏微分方程的人工边界条件数值方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

退化耗散型双曲系统的整体适定性与稳定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

非零边界条件下扰动导数非线性薛定谔方程的解析和数值研究

国家自然科学基金

0+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

新变指标Besov-Triebel-Lizorkin型函数空间及算子有界性

国家自然科学基金

0+阅读 · 2012年12月31日

面向电子巡航的内河视频智能分析算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

H-半变分不等式的非线性扰动与分数阶问题

国家自然科学基金

0+阅读 · 2012年12月31日

几类非线性随机动力学系统的近似瞬态响应

国家自然科学基金

0+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员