GAN跨界合成高保真音乐，Jeff Dean听了都陶醉

会员服务 ·

GAN跨界合成高保真音乐，Jeff Dean听了都陶醉

2019 年 3 月 1 日 全球人工智能

作者：Jesse Engel 来源：google,新智元等

谷歌大脑团队最新ICLR论文提出用GAN生成高保真音乐的新方法，速度比以前的标准WaveNet快5万倍，且音乐质量更好！

GAN 在生成高质量图像方面是当之无愧的最先进的方法。然而，将 GAN 扩展到如声音这类的序列数据任务，尽管有许多尝试，仍困难重重。

近日，谷歌大脑团队 Jesse Engel 等人用GAN生成音乐的新研究引起大量关注。Jesse Engel 在推特上兴奋地宣布：“用GAN生成音乐成功了！GANSynth是一种快速生成高保真音频的新方法。”

他们的论文 GANSynth: Adversarial Neural Audio Synthesis 已被 ICLR 2019接收。

谷歌 AI 总统帅 Jeff Dean 也被这个研究吸引，大加赞赏，并建议大家试听一下更多样本音乐。

GANSynth 生成音乐有多强呢？Jesse Engel 用一句话解释：“我们证明了，我们可以比标准的 WaveNet 快 5 万倍地生成乐器音频，并且具有更高的质量 (无论是定量测试还是听众测试)，并且可以独立控制音高和音色，使得乐器之间的插入更加平滑。”

巴赫前奏曲的示例

他说：“与之前的音频模型 (如 WaveNet 自动编码器) 不同，我们学习整个音频剪辑的单个潜在向量，并添加音调调节向量。这可以产生更平滑的插值 (interpolations)，让每个点听起来都像是一个有效的样本。”

他们发布了代码，享受用 colab notebook 制作自己的音乐的乐趣吧！

更多音乐样本:

https://storage.googleapis.com/magentadata/papers/gansynth/index.html

Colab:

https://colab.research.google.com/notebooks/magenta/gansynth/gansynth_demo.ipynb

论文: https://openreview.net/forum?id=H1xQVn09FX

Code:

https://github.com/tensorflow/magenta/tree/master/magenta/models/gansynth

Blog: http://magenta.tensorflow.org/gansynth

接下来，我们将详细介绍 GANSynth 生成音乐的运作原理.

为什么要用 GAN 生成音频？

GAN 是用于生成高质量图像的最先进的方法。然而，研究人员一直在努力将其应用到更加序列性的数据，如音频和音乐。

在序列数据中，自回归 (AR) 模型占主导地位，如 wavenet 和 Transformers，它们的运作方式是一次预测单个样本。虽然 AR 模型的这一特性有助于它们的成功，但这也意味着采样是连续的，而且非常缓慢，实时生成需要 distillation 或专用内核等技术。

GANynth 不是按序列生成音频，而是并行生成整个序列，在现代 GPU 上合成音频的速度比实时更快，比标准 WaveNet 快约 50000 倍。

与原始论文中使用时间分布潜码的 WaveNet 自动编码器不同，GANynth 从单个潜在向量生成整个音频片段，从而更轻松地分开音高和音色等全局特征。利用乐器音符的 NSynth 数据集，我们可以独立控制音高和音色。

请听听下面的示例音乐，我们首先保持音色是常数，然后在整首曲子中插入音色:

保持音色常数的示例

在整首曲子中插入音色

用 GAN 生成音乐的原理

GANynth 使用一个 Progressive GAN 架构，通过卷积将样本从单个向量逐步上采用到完整的声音。与之前的工作类似，我们发现直接生成相干波形 (coherent waveforms) 很困难，因为上采样卷积与高周期信号的相位对齐相悖。如下图所示：

上图中，红黄相间的曲线是一个周期信号，每个周期波形的开始处都有一个黑点。如果我们尝试通过将其切割成周期性的帧 (黑色虚线) 来对信号进行建模，就像对 GAN 中的上采样卷积和短时距傅里叶变换 (STFT) 所做的那样，帧的开始 (虚线) 和波形的开始 (点) 之间的距离随时间变化而改变 (黑色实线)。

对于跨步卷积，这意味着卷积需要学习给定滤波器的所有相位排列，这是非常低效的。这种差异 (黑线) 被称为相位 (phase)，它随着时间的推移而进行，因为波和帧有不同的周期。

正如上面的示例所展示的，相位是一个环形量 (黄色条，mod 2π)，但是如果我们展开它 (橙色条), 它每帧减少一个恒定量 (红色条)。我们称之为瞬时频率 (IF)，因为频率的定义是相位随时间的变化。STFT 将一帧信号与许多不同频率进行比较，得到如下图所示的斑点相位模式。相比之下，当我们提取瞬时频率时，我们看到的是一致的粗体线条，反映了潜在声音的相干周期。