谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

2022 年 1 月 3 日 量子位
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

听一遍曲子,就能知道乐谱,还能马上演奏,而且还掌握“十八般乐器”,钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐大师,而是谷歌推出的“多任务多音轨”音乐转音符模型MT3

首先需要解释一下什么是多任务多音轨。

通常一首曲子是有多种乐器合奏而来,每个乐曲就是一个音轨,而多任务就是同时将不同音轨的乐谱同时还原出来。

还原后的多音轨听起来是这样的:

听起来是不是很像原版演奏?事实上,谷歌MT3在还原多音轨乐谱这件事上,达到了SOTA的结果。

谷歌已将该论文投给ICLR 2022。

还原多音轨乐谱

相比与自动语音识别 (ASR) ,自动音乐转录 (AMT) 的难度要大得多,因为后者既要同时转录多个乐器,还要保留精细的音高和时间信息。

多音轨的自动音乐转录数据集更是“低资源”的。现有的开源音乐转录数据集一般只包含一到几百小时的音频,相比语音数据集动辄几千上万小时的市场,算是很少了。

先前的音乐转录主要集中在特定于任务的架构上,针对每个任务的各种乐器量身定制。

因此,作者受到低资源NLP任务迁移学习的启发,证明了通用Transformer模型可以执行多任务 AMT,并显著提高了低资源乐器的性能。

作者使用单一的通用Transformer架构T5,而且是T5“小”模型,其中包含大约6000万个参数。

该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生输出标记序列,该模型使用贪婪自回归解码:输入一个输入序列,将预测出下一个出现概率最高的输出标记附加到该序列中,并重复该过程直到结束 。

MT3使用梅尔频谱图作为输入。对于输出,作者构建了一个受MIDI规范启发的token词汇,称为“类MIDI”。

生成的乐谱通过开源软件FluidSynth渲染成音频。

此外,还要解决不同乐曲数据集不平衡和架构不同问题。

作者定义的通用输出token还允许模型同时在多个数据集的混合上进行训练,类似于用多语言翻译模型同时训练几种语言。

这种方法不仅简化了模型设计和训练,而且增加了模型可用训练数据的数量和多样性。

实际效果

在所有指标和所有数据集上,MT3始终优于基线。

训练期间的数据集混合,相比单个数据集训练有很大的性能提升,特别是对于 GuitarSet、MusicNet 和 URMP 等“低资源”数据集。

最后再展示一段原音频,以及由MT3识别乐谱渲染的音频。大家可以感受一下区别:

原音频:

MT3:

最近,谷歌团队也放出了MT3的源代码,并在Hugging Face上放出了试玩Demo。

不过由于转换音频需要GPU资源,在Hugging Face上,建议各位将在Colab上运行Jupyter Notebook。

论文地址:
https://arxiv.org/abs/2111.03017

源代码:
https://github.com/magenta/mt3

Demo地址:
https://huggingface.co/spaces/akhaliq/MT3

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

「智能汽车」交流群招募中!

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群,与行业大咖交流、切磋,不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
谷歌教你学 AI -机器学习的7步骤
专知会员服务
27+阅读 · 2022年3月13日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
利用 AIST++ 生成音乐条件下的 3D 舞蹈
TensorFlow
0+阅读 · 2021年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
27+阅读 · 2020年6月19日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
26+阅读 · 2018年9月21日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
相关论文
Top
微信扫码咨询专知VIP会员