「鼎新者」韦福如:与NLP“相恋”的十年

2019 年 2 月 15 日 网易智能菌

编者按:2018年12月28日,由网易智能、清华大学数据科学研究院和25家评审机构共同评出的「2018中国AI英雄风云榜」年度人物榜单揭晓,10位人工智能领域的从业者获奖。其中,微软亚洲研究院自然语言计算组资深研究员韦福如凭借在自然语言处理领域的多项技术突破获得了本次评选的技术新锐奖。

出品 | 网易智能(公众号 smartman163)

作者 | 小羿


记AI英雄风云榜新锐奖获得者:韦福如


01

走上研究之路


17岁考入武汉大学计算机学院、保送硕博连读、26 岁获得博士学位,作为80后,韦福如有着令人羡慕的学霸经历。


不过,在采访中,韦福如表示,当时走上研究自然语言的道路却经历了一番抉择。


韦福如攻读硕士期间,中国互联网产业异军突起,这让他在工作和读博两条路之间犹豫不决。不过,后来韦福如在微软亚洲研究院实习了8个月,自由开放的环境使得他对研究有了新的思考。


据韦福如向网易智能讲述,实习结束后,他选择继续攻读博士学位,并到香港理工大学做访问学者,开始研究当时NLP领域的一个重要问题——自动文摘。2009年博士毕业后,韦福如曾一度加入IBM中国研究院,之后于2010年正式入职了微软亚洲研究院,加入自然语言计算组工作。


工作了八年多的时间,在韦福如眼里,微软亚洲研究院就像一座学校,不仅搭建了中国最好的科研环境,让研究者可以自由选择自己想做的事情,还让他们不断成长,从“学生”变成了“老师”,有机会见证年轻同事和实习生同学的成长。


韦福如(左)与其指导的实习生


02

与NLP的十年“恋情”


韦福如表示,从读博到现在,他已经在NLP(自然语言处理)领域研究了十年。十年间,NLP领域发生了很大的变化。


“从研究方法上来说, 自然语言处理经历了基于规则、偏向语言学的方法,到基于数据驱动和机器学习的方法。2011年开始,深度学习逐渐在自然语言处理的很多任务上起到了越来越重要的作用。而最近几年对于自然语言处理起到关键性推动作用的有两个任务,一个是机器翻译,一个是自动问答,或者更具体来说是最近在工业界和研究界都很热门的机器阅读理解。2014年,NLP的研究迎来一个突破,尤其是在机器翻译的研究上,从SMT(统计机器翻译)过渡到NMT(神经网络机器翻译),这不但对机器翻译本身带来了影响,更是重新唤醒了自然语言生成的研究和应用。2018年,预训练模型(例如ELMo和BERT)在NLP领域得到了广泛的应用,而机器阅读理解直接见证和推动了预训练模型的相关研究。可以说2018年是自然语言处理之年。“韦福如这样回顾近年来NLP的发展。


正是在机器阅读理解上的深入研究和系统开发,使得韦福如和其团队在2018年取得了一系列的成就。


2018年1月,在斯坦福大学发起的SQuAD文本理解挑战赛中,韦福如所带领的团队所开发的端到端的深度神经网络模型r-net在EM值上以82.650的最高分占据榜首,首次超越人类成绩82.304。


SQuAD上MSRA的EM值为82.650,F1值为88.493


此后,韦福如团队不断突破创新,升级后的nlnet模型在EM值和F1值两个维度上,以85.954和91.677的分数首次全面超越人类在SQuAD数据集上的表现。2019年1月,他们基于BERT开发的最新系统又在SQuAD2.0和交互式、多轮阅读理解数据集CoQA上名列榜首。


MSRA在SQuAD2.0上依然名列榜首


那么,AI在阅读理解上是否真的打败人类了?在采访中,韦福如对此进行了详细解释。


韦福如表示,说“机器阅读理解超越人类”是有限定条件的。SQuAD比赛的规则是给出一个文章或段落,让机器阅读之后回答相关问题,最后衡量机器的答案与人类的标注回答之间的重合度。“在SQuAD超越人类成绩只能说明模型可以拟合这样的结果,在特定的数据集和评测标准下,算法可以做到普通人类(更具体来说是标注人员)的水平,而不是说现在机器理解自然语言比人类强。”


在韦福如看来,BERT这样的预训练模型启发了新的研究课题,让通用语言理解成为可能且值得深入探索和重点投入的研究方向。“目前,在自然语言理解的任务上,预训练模型很好地缓解了标注数据少和跨领域的问题,而这正是实际应用中遇到的实际问题。”韦福如说到。


目前,根据GoogleScholar的统计结果,韦福如在国际顶级会议和期刊上发表了100余篇NLP相关论文,被引用超过5000次,H-index指数为37。


微软亚洲研究院机器阅读团队


03

定义问题很重要,NLP未来这样走


在采访中,韦福如多次提到了“定义问题”的重要性。在他看来,不管是什么自然语言处理问题,从研究和技术的角度都应该有确定的任务定义,有客观的评测指标。比如对话系统可以大致分为闲聊、问答、任务型对话以及信息推荐等不同的任务,每一类任务都有不同的定义和测评标准。


对于NLP领域未来的发展,韦福如认为短期内有三个趋势


第一,在理解任务上,包括通用语言理解、从通用领域迁移到特定领域,在研究和应用上将有非常多的机会。


但是,理解是否包括情绪和情感?韦福如认为,如果从在任务定义范围内的角度,比如给机器一段文字说“我今天很高兴”,让机器从纯文本的角度去判断是正面情绪还是负面情绪,目前机器已经能够做的很好了。但情绪情感已经超越语言了,不同的语调、表情,在不同的场合、时间,针对不同的人,所表达的情绪和情感是不一样的,从这个角度来说,机器本身还很难有情绪和情感,这也超越了目前技术上的认知。


第二,看好对多模态(文本+图片+视频)的研究。


第三,短期内可能还会看到自然语言生成方面的通用技术和模型。


从长远来看,NLP虽然一直在解决歧义、知识和常识的使用等问题,但也需要解决推理的难题。



04

对技术落地的思考:技术的上界和需求的下界要碰到一起


其实,在基础研究之外,韦福如也很注重与产品部门的合作,很多技术都转化和应用到微软重要产品中。同时,他也很注重创新孵化。比如,将NLP技术应用到音乐创作领域,让微软小冰拥有作词、作曲的音乐创作能力。另外,韦福如和他的团队最近还在AAAI2019上发表了一篇论文研究如何让机器自动生成弹幕。


从应用角度看,韦福如认为,语音交互会是接下来很重要的方向,但是关键还是要有刚需和场景以及看“技术的上界能不能至少够得上需求的下界”。从用户的角度看,就是能否用经济有效的方式去解决问题。“对于语音交互来说,确实是一种很自然的方式,但不一定是唯一的选择。”韦福如说到。


往期推荐

 

AI药物全球100领军人物:43%来自学界 美英顶级AI专家人数最多

▲点击图片

比尔·盖茨2019年公开信:过去一年有9个意外


▲点击图片观看

在未来和AI争夺工作的16个实用技巧

▲点击图片观看

- 加入社群吧 -

网易智能AI社群(AI芯片、医疗AI、金融AI、电商AI、自动驾驶、教育AI、AIoT、机器人等12个社群)火热招募中,对AI感兴趣的小伙伴,添加智能菌微信 kaiwu_club,说明身份即可加入。

登录查看更多
2

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
专知会员服务
102+阅读 · 2020年3月12日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
224+阅读 · 2019年10月12日
【NLP】NLP将迎来黄金十年
产业智能官
5+阅读 · 2019年4月27日
清华大学NLP组年末巨献:机器翻译必读论文列表
机器之心
13+阅读 · 2018年12月30日
如何在NLP领域干成第一件事
AI100
6+阅读 · 2018年2月3日
综述 | 一文读懂自然语言处理NLP(附学习资料)
PaperWeekly
9+阅读 · 2017年11月14日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
独家 | 一文读懂自然语言处理NLP(附学习资料)
数据派THU
9+阅读 · 2017年10月11日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关资讯
【NLP】NLP将迎来黄金十年
产业智能官
5+阅读 · 2019年4月27日
清华大学NLP组年末巨献:机器翻译必读论文列表
机器之心
13+阅读 · 2018年12月30日
如何在NLP领域干成第一件事
AI100
6+阅读 · 2018年2月3日
综述 | 一文读懂自然语言处理NLP(附学习资料)
PaperWeekly
9+阅读 · 2017年11月14日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
独家 | 一文读懂自然语言处理NLP(附学习资料)
数据派THU
9+阅读 · 2017年10月11日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
5+阅读 · 2017年11月30日
Top
微信扫码咨询专知VIP会员