谷歌推出全能扒谱AI：只要听一遍歌曲，钢琴小提琴的乐谱全有了

会员服务 ·

谷歌推出全能扒谱AI：只要听一遍歌曲，钢琴小提琴的乐谱全有了

2022 年 1 月 3 日 量子位

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

听一遍曲子，就能知道乐谱，还能马上演奏，而且还掌握“十八般乐器”，钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐大师，而是谷歌推出的“多任务多音轨”音乐转音符模型MT3。

首先需要解释一下什么是多任务多音轨。

通常一首曲子是有多种乐器合奏而来，每个乐曲就是一个音轨，而多任务就是同时将不同音轨的乐谱同时还原出来。

还原后的多音轨听起来是这样的：

听起来是不是很像原版演奏？事实上，谷歌MT3在还原多音轨乐谱这件事上，达到了SOTA的结果。

谷歌已将该论文投给ICLR 2022。

还原多音轨乐谱

相比与自动语音识别 (ASR) ，自动音乐转录 (AMT) 的难度要大得多，因为后者既要同时转录多个乐器，还要保留精细的音高和时间信息。

多音轨的自动音乐转录数据集更是“低资源”的。现有的开源音乐转录数据集一般只包含一到几百小时的音频，相比语音数据集动辄几千上万小时的市场，算是很少了。

先前的音乐转录主要集中在特定于任务的架构上，针对每个任务的各种乐器量身定制。

因此，作者受到低资源NLP任务迁移学习的启发，证明了通用Transformer模型可以执行多任务 AMT，并显著提高了低资源乐器的性能。

作者使用单一的通用Transformer架构T5，而且是T5“小”模型，其中包含大约6000万个参数。

该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生输出标记序列，该模型使用贪婪自回归解码：输入一个输入序列，将预测出下一个出现概率最高的输出标记附加到该序列中，并重复该过程直到结束。

MT3使用梅尔频谱图作为输入。对于输出，作者构建了一个受MIDI规范启发的token词汇，称为“类MIDI”。

生成的乐谱通过开源软件FluidSynth渲染成音频。

此外，还要解决不同乐曲数据集不平衡和架构不同问题。

作者定义的通用输出token还允许模型同时在多个数据集的混合上进行训练，类似于用多语言翻译模型同时训练几种语言。

这种方法不仅简化了模型设计和训练，而且增加了模型可用训练数据的数量和多样性。

实际效果

在所有指标和所有数据集上，MT3始终优于基线。

训练期间的数据集混合，相比单个数据集训练有很大的性能提升，特别是对于 GuitarSet、MusicNet 和 URMP 等“低资源”数据集。

最后再展示一段原音频，以及由MT3识别乐谱渲染的音频。大家可以感受一下区别：

原音频：

MT3：

最近，谷歌团队也放出了MT3的源代码，并在Hugging Face上放出了试玩Demo。

不过由于转换音频需要GPU资源，在Hugging Face上，建议各位将在Colab上运行Jupyter Notebook。

论文地址：
https://arxiv.org/abs/2111.03017

源代码：
https://github.com/magenta/mt3

Demo地址：
https://huggingface.co/spaces/akhaliq/MT3

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

38+阅读 · 2022年4月5日

谷歌教你学 AI -机器学习的7步骤

专知会员服务

27+阅读 · 2022年3月13日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

26+阅读 · 2022年3月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

75+阅读 · 2022年1月20日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

34+阅读 · 2021年7月8日

【NeuraIPS2020-谷歌】用于鲁棒性和不确定性量化的超参数集成

专知会员服务

12+阅读 · 2020年10月27日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

35+阅读 · 2020年9月2日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

23+阅读 · 2020年4月7日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

13+阅读 · 2020年3月8日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

69+阅读 · 2020年1月17日

无痕 PS、读得懂文字，OpenAI 的二代 DALL·E 惊艳亮相！

CSDN

0+阅读 · 2022年4月14日

重磅！谷歌用扩散模型来生成视频了！刷新SOTA

CVer

1+阅读 · 2022年4月12日

AI字幕在儿童频道里吐“脏话”，中招比例高达40%，亚马逊谷歌都很祖安丨AAAI 2022

量子位

0+阅读 · 2022年2月27日

索尼推出全能音乐AI工具：作曲混音编曲都OK！留给人类发挥的空间不多了

量子位

0+阅读 · 2022年1月11日

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

量子位

0+阅读 · 2022年1月10日

字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

量子位

0+阅读 · 2022年1月6日

Meta发布支持128种语言的新语音模型：指向元宇宙跨语种交流，可在线试玩

量子位

0+阅读 · 2021年11月22日

利用 AIST++ 生成音乐条件下的 3D 舞蹈

TensorFlow

0+阅读 · 2021年10月12日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

中国科学院自动化研究所

0+阅读 · 2021年7月7日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

mtSSB分子通过调控线粒体/ROS/端粒轴抑制结直肠癌生长的机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

离心摆式双质量飞轮多谐次减振机理与转速自适应寻优算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多语用户模型的个性化跨语言信息检索研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于独立桨距控制的电控旋翼振动与噪声控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

自动作曲技术及其质量评估方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线数据与专家知识的燃煤锅炉混合智能建模及模型更新研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于人工神经网络的牙本质瓷计算机配色研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

音乐舞蹈视频中音乐-动作片段识别方法的研究

国家自然科学基金

1+阅读 · 2011年12月31日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

Application of Transfer Learning and Ensemble Learning in Image-level Classification for Breast Histopathology

Arxiv

0+阅读 · 2022年4月18日

On Secure NOMA-Aided Semi-Grant-Free Systems

Arxiv

0+阅读 · 2022年4月18日

Faster-Than-Native Alternatives for x86 VP2INTERSECT Instructions

Arxiv

0+阅读 · 2022年4月16日

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer

Arxiv

0+阅读 · 2022年4月15日

A Survey of Uncertainty in Deep Neural Networks

Arxiv

30+阅读 · 2021年7月7日

Subgraph Neural Networks

Arxiv

27+阅读 · 2020年6月19日

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

VIP会员