谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92% - 专知

会员服务 ·

0

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

2018 年 11 月 14 日 开源中国

据 VentureBeat 报道，Google 人工智能研究部门在语音识别方面取得了新的进展，能从嘈杂的环境中分辨声音，准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统，称它“能以一种更有效的方式识别声音”。

这套强大的 AI 系统涉及到 Speaker diarization 任务，需要标注出“谁”从“什么时候”到“什么时候”在说话，将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

其核心算法已经开源可用。它实现了一个在线二值化错误率(DER)，在NIST SRE 2000 CALLHOME基准上是7.6%，这对于实时应用来说已经足够低了，而谷歌之前使用的方法DER为8.8%。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示），递归神经网络是一种机器学习模型，它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始，该实例不断更新给定新嵌入的RNN状态，使系统能够学习发言者共享的高级知识。

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习，所以在有高质量时间标记演讲者标签训练数据的情况下，它比无监督系统更受青睐。我们的系统受到全面监督，能够从带有时间戳的演讲者标签例子中学习。”

在未来的工作中，研究团队计划改进模型，使其能够集成上下文信息来执行脱机解码，他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模，这样整个Speaker diarization系统就可以进行端到端训练。

来自：网易科技

链接：

http://tech.163.com/18/1113/11/E0G6J5HI00097U7T.html

项目的源码地址可以从这里获取：

开源中国征稿开始啦！

开源中国 www.oschina.net 是目前备受关注、具有强大影响力的开源技术社区，拥有超过 200 万的开源技术精英。我们传播开源的理念，推广开源项目，为 IT 开发者提供一个发现、使用、并交流开源技术的平台。

现在我们开始对外征稿啦！如果你有优秀的技术文章想要分享，热点的行业资讯需要报道等等，欢迎联系开源中国进行投稿。投稿详情及联系方式请参见：我要投稿

推荐阅读

三星宣布 Linux on DeX：手机秒变 Ubuntu 桌面环境

类 XP 系统 ReactOS 0.4.10 正式发布，更稳定更漂亮

我该用 Java12 还是坚持 Java11？

运维主管离职后倒卖代码，非法获利 800 万被抓

国内 Golang 开发有没有 qian 途？爬了些数据告诉你

更多详情请查看阅读原文↓↓↓↓↓

登录查看更多

5

相关内容

准确率

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

专知会员服务

48+阅读 · 2020年4月13日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

专知会员服务

36+阅读 · 2020年3月28日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【强化学习最新综述】详解强化学习当前进展及未来方向

专知会员服务

239+阅读 · 2020年1月23日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

AI科技评论

7+阅读 · 2019年8月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

量子位

8+阅读 · 2019年4月28日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

已删除

将门创投

5+阅读 · 2018年11月15日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

Mozilla发布开源语音数据库和语音识别模型

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

开源 | 基于Python的人脸识别：识别准确率高达99.38%！

开源 | 基于Python的人脸识别：识别准确率高达99.38%！

全球人工智能

4+阅读 · 2017年7月29日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Arxiv

8+阅读 · 2020年4月13日

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

Arxiv

59+阅读 · 2020年1月20日

Multi-Temporal Aerial Image Registration Using Semantic Features

Multi-Temporal Aerial Image Registration Using Semantic Features

Arxiv

3+阅读 · 2019年9月19日

A Comparative Study on Transformer vs RNN in Speech Applications

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

High-quality nonparallel voice conversion based on cycle-consistent adversarial network

Arxiv

4+阅读 · 2018年4月2日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

VIP会员

相关主题

递归神经网络

相关VIP内容

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

专知会员服务

48+阅读 · 2020年4月13日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

专知会员服务

36+阅读 · 2020年3月28日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【强化学习最新综述】详解强化学习当前进展及未来方向

专知会员服务

239+阅读 · 2020年1月23日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

AI科技评论

7+阅读 · 2019年8月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

量子位

8+阅读 · 2019年4月28日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

已删除

将门创投

5+阅读 · 2018年11月15日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

Mozilla发布开源语音数据库和语音识别模型

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

开源 | 基于Python的人脸识别：识别准确率高达99.38%！

开源 | 基于Python的人脸识别：识别准确率高达99.38%！

全球人工智能

4+阅读 · 2017年7月29日

相关论文

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Arxiv

8+阅读 · 2020年4月13日

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

Arxiv

59+阅读 · 2020年1月20日

Multi-Temporal Aerial Image Registration Using Semantic Features

Multi-Temporal Aerial Image Registration Using Semantic Features

Arxiv

3+阅读 · 2019年9月19日

A Comparative Study on Transformer vs RNN in Speech Applications

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

High-quality nonparallel voice conversion based on cycle-consistent adversarial network

Arxiv

4+阅读 · 2018年4月2日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

大家都在搜

大型语言模型

IJCAI2025教程

无人机系统

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员