WAIC 开发者日Daniel Povey:在中国,打造新一代的「Kaldi」

2020 年 6 月 10 日 机器之心
机器之心发布

参与:蛋酱

Daniel Povey 来到中国半年多了,微博中最常出现的地点是小米科技园。在签下 offer 之前,他曾表示计划在中国打造新一代的「Kaldi」。


Daniel Povey 这个名字为人们所熟知,前前后后大概因为三件事。

一是语音识别开源工具 Kaldi 之父的身份;

二是对约翰霍普金斯大学内的学生抗议提出抗议,之后干脆离开学界并怒辞 Facebook;

三是漂洋过海来到中国,加入小米,同时被记住的还有他那双一年四季都在穿的凉拖鞋。

语音识别领域的天才

Daniel Povey 是语音界赫赫有名的人物,他从 1999 年起陆续发表关于语音识别和处理方面的研究成果,迄今为止被引用次数接近 25000 次。


2003 年,Daniel Povey 从英国剑桥大学拿到了语音识别方向的博士学位,此后近十年间,他一直在工业界做语音方面的研究,先后加入了 IBM 研究院和微软研究院。

在 IBM 研究院的时候,Daniel Povey 推出了特征空间的判别训练方法,这一方法已成为当前语音识别领域 SOTA 系统的标配。

他还设计了「子空间高斯混合模型框架」,这是一种后来被广泛应用的建模技术,原理是通过类似说话者识别中的子空间思想来增强高斯混合模型框架。

但 Daniel Povey 最著名的研究是「Kaldi」。2008 年,Daniel Povey 进入微软研究院,次年开始主导这款语音识别工具包的搭建工作。Kaldi 集成了多种语音识别的模型,包括隐马尔可夫和最新的深度学习神经网络,在语音识别方面有着不可撼动的地位。

2011 年,Daniel Povey 和他的团队在一篇论文中向大家介绍了 Kaldi,并公开了所有代码。而 Daniel Povey 不仅是 Kaldi 的主要开发者,也是该论文的第一作者,后来也被称为「Kaldi 之父」。


实际上,Kaldi 的工作最初也是在 2009 年约翰霍普金斯大学的一场 workshop 上启动的。后来,Daniel Povey 从工业界退出,在 2012 年进入约翰霍普金斯大学担任助理教授。

这篇关于 Kaldi 的论文引用次数现在已经达到了 3000 多次,在 GitHub 上的项目 Star 量也已经超过了 8k。在这九年里,DaniePovey 一直是 Kaldi 主要开发和维护者。



漂洋过海,加入小米

但由于卷入去年的一场校园抗议事件,Daniel Povey 的研究生涯发生了意外转折。

2019 年 4 月,约翰霍普金斯大学校内出现了抗议事件,学生们占领了学校的行政大楼。不幸的是,CLSP(语音语言处理中心)的机房就处在被占领的楼中。因为缺乏维护,机器和数据都面临着被损坏的风险。为了保护机器和数据,Daniel Povey 在 5 月 8 日夜晚试图用断线钳绞开封锁大楼的铁链,从学生手中夺回机房,但未能成功。

之后 Daniel Povey 就离开了约翰霍普金斯大学,又因为 Facebook 的「六星期审查事件」直接拒绝了 offer。在一系列事件后,他决定来到中国。

「如果任何人想知道后续的话,我的计划是去一家中国公司任职,并可能在中国高校找一份兼职工作。」

与几家中国公司见过面之后,Daniel Povey 最终选择了小米。


北京时间 2019 年 11 月 18 日,Daniel Povey 在 Twitter 上宣布,他将很快与小米签订一项工作协议,工作地点位于北京,所以自己也会在 2019 年底或者之前搬去北京。在小米的工作内容是打造新一代的「Kaldi」。


随后,小米的几位联合创始人也都在微博确认了这一消息。很快,Daniel Povey 就以小米集团语音首席科学家的身份出席了 2019 小米开发者大会。

来到中国后,他也拥有了自己的微博账号:


工作之余,他也会在微博分享在中国的新生活:

拍下这张照片的理由是:「我感觉自己穿这件衬衫的时候,看起来很像大佬的心腹。」

如果足够关注 Daniel Povey 的动态,还会发现他几乎每天穿着同一双「凉拖鞋」,即使在冬季下雪的日子也是如此。(当然,也许是买了很多双同款)


打造新一代的「Kaldi」

对于熟悉 Daniel Povey 的人来说,他的确是个有些「古怪」的人,与此同时又不得不承认,他是既有天分又足够勤奋的那种人。

在离开美国的半年里,Daniel Povey 笔耕不辍。大约在近半年的时间里,他的谷歌学术主页就更新了 7 篇论文。


在最近上传的一篇论文中,他和约翰霍普金斯大学的研究人员共同提出了 PyChain。对于 Kaldi 自动语音识别(automatic speech recognition, ASR)工具包中链式模型的端到端无网格最大交互信息(lattice-free maximum mutual information, LF-MMI)训练,PyChain 可以实现完全并行化 PyTorch 实现。

此外,打造新一代的「Kaldi」也是他来到中国的初心。

在不久之后的 2020 年世界人工智能大会云端峰会开发者日专场,Daniel Povey 也会亲自分享他在语音识别领域的最新思考。

世界人工智能大会云端峰会开发者日(以下简称为 WAIC 开发者日)作为 WAIC 云端峰会主题论坛及特色活动,是 WAIC 期间唯一面向 AI 开发者的专业活动,旨在打造人工智能领域年度最高规格、最专业、最具影响力的开发者盛会。

WAIC 开发者日将在 7 月 9 日 - 11 日举办 1 场主论坛、多场分论坛、及高峰对话、黑客松等活动,呈现人工智能技术分享盛宴。期间也将进行上海白玉兰开源开放研究院揭牌,发布《人工智能开源开放报告》、WAIC 人工智能青年技术人才奖。


Daniel Povey 本次将要分享的主题是 《可差分的有限状态机在语音识别及其他序列问题中的应用(Differentiable Finite State Acceptor (FSA) Operations for Speech Recognition and other Sequence Problems)》,同时参会分享还有多位重磅嘉宾,包括 2017 年图灵奖得主、计算机体系结构宗师 David Patterson,2007 年图灵奖得主、欧洲科学院院士、法国科学院院士、美国文理科学院院士、美国国家工程院院士 Joseph Sifakis,悉尼大学教授、优必选 AI 首席科学家陶大程,百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜,多伦多大学助理教授 David Duvenaud,Julia 语言创始人之一 Viral B. Shah 等。

更多大会精彩内容将陆续对外公布,欢迎各界朋友持续关注 WAIC 开发者日活动,共同推动人工智能开发者生态的建设和核心技术的研究与进步。
登录查看更多
0

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
德勤:2020技术趋势报告,120页pdf
专知会员服务
187+阅读 · 2020年3月31日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
MBSE应用于航空产品研发的适航管理
科技导报
12+阅读 · 2019年4月26日
要替代 TensorFlow?谷歌开源机器学习库 JAX
新智元
3+阅读 · 2018年12月14日
TensorFlow中国团队发布官方微信公众号
谷歌开发者
8+阅读 · 2017年12月16日
语音识别之--扑朔迷“离”
微信AI
6+阅读 · 2017年8月9日
Phase-aware Speech Enhancement with Deep Complex U-Net
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
7+阅读 · 2018年9月27日
VIP会员
Top
微信扫码咨询专知VIP会员