二十载AI论文大调查,十万多篇论文分析“学界鸿沟在加剧”

2020 年 11 月 22 日 AI科技评论

作者 | 蒋宝尚

编辑 | 陈彩娴

近日,著名科技网站venturebeat发表了一篇名为“深度学习时代,计算鸿沟正在集中权力,加剧不平等”的文章。

在文中,作者引用了几篇论文,从顶会论文发表、研究资金投入和科研人才流动等方面说明了以下几个现象: 
  • QS排名前五十的学校平均发表66篇顶会论文,是第二、三层次学校(QS51-100、QS101-200)的近乎两倍,而AI相关公司的生产力也远超这些学校,平均发表约42篇论文。

  • 自深度学习兴起以来,QS 301-500的大学在顶会中的论文平均减少了六篇,比预期少了25%。

  • 2004年至2018年之间学术界前所未有的人才流失。


对于这些现象的背后原因,文章作者归纳为:GPU。作者表示, 以GPU为代表的AI资源正在像大企业和顶级名校集中,会导致两极分化的马太效应。
 

1

学界不平等的来源:研究方式的转变


在文章中,作者引用的第一篇论文是来自弗吉尼亚理工大学和韦仕敦大学的合著“The De-democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research”。 这篇论文研究了从2000到2019年,包括ACL、ICML和NeurIPS在内57个顶 会, 涵盖的领域包括: 计算机视觉、数据挖掘、机器学习和自然语言学习等, 调查样本总数多达171394篇论文。
在这篇论文中,作者也证明了: “计算”在人工智能研究中发挥的作用越来越大。
作者认为,当前计算机科学研究依然依赖算法、硬件、以及专用软件的综合作用 。而计算在人工智能历史中,起到了“突破”和“确定研究方向”的作用。换句话说,在决定研究方向方面,计算机可以发挥超乎寻常的作用,算法或软件在其中起到的作用相对弱一些。
硬件确实改变了人工智能的研究格局。2012年之前,研究人员主要依赖通用硬件或者CPU。因此,那个时候,大多数研究人员使用相同的软件和硬件,比拼的是算法的优越性。  
然而,在现代人工智能的研究中,由于有专门的硬件可用,因此,研究人员并不处于平等的地位。
另外,在一些大公司中,它们往往拥有高质量的专有数据集,用这些训练数据集,有助于产生高度精确的深度学习模型。最近的研究表明,Facebook、谷歌和亚马逊等大公司凭借其专有数据在人工智能研究中拥有优势,而其他资源不充足的机构却无法获得这些计算以及大型数据集。
在人才方面,这些有钱的企业往往也更能招聘和留住人才,当然这些人才借助优势的计算的数据也更能发挥自己的能力。
放眼整个人工智能的发展,正如2019年美国白宫在一份人工智能报告中,将核心问题归纳为:“[……]工业凭借其持续的资金支持,以及对先进计算设施和数据集的获取,对学术研究和教学人才产生了强大的推动作用。”
 

2

近二十年顶会调查:名校大厂占据半壁江山

上图展示的是57个人工智能和非人工智能会议汇总数据,以会议年为单位,涵盖2000~2019近20年的非平衡面板数据。论文总数达171394篇。
根据上述“描述性”表格,我们得知,大学机构排名和平均“出版”之间存在很强的相关性,一些有着精英名号的大学,在计算机领域也有着非常强的影响力,这些大学平均每个会议年发表66篇论文。世界排名(QS)51~100的大学,则只有35篇论文。而排名在101-200之间的近100所大学,只发表了32篇论文。  
在公司层面,每年平均发表42篇,而大公司却有23篇,占比一半以上。  
图注:0.30表示某一年该会议上,30%的论文至少有一位合著者是公司员工
为了更加直观的体现公司在科研中的作用,作者用上图展示了在一段时间内,与公司相关的论文在人工智能会议上的份额。上图表明,在最“著名”的十个会议中,都在经历“公司力量”的上升趋势。
此外,上图也说明了,各领域校企合作论文的比例都有不同程度的上涨,其中KDD(数据挖掘顶级会议)中合作论文在2020年比例超过50%,ICCV(国际计算机视觉大会)达到45%。
上图展示了非人工智能会议中,公司所占份额,此图展示的结果和上图不同,在大多数情况下,公司发表论文的情况是相对稳定的。值得注意的一点是, 2012年前,人工智能和非人工智能会议的企业参与率相似,只有在2012年ImageNet取得震撼成绩之后,才有更多的公司参与到人工智能中来。
此外,根据medium博主,Gleb Chuvpilo在2019年统计的年度AI研究排名,斯坦福大学、MIT、卡内基梅隆大学,加州大学伯克利分校和微软列为领先AI研究会议的六大贡献者。

3

学界人才流失:加剧鸿沟的另一个原因

学界不平等的鸿沟的另一个表现是学界人才大量流入资本,在上述那篇论文中也证实了这种人才流动导致的科技水平变化。  
作者表示,自深度学习兴起以来,QS 301-500的大学在顶会中的论文平均减少了六篇,比预期少了25%,而世界500强、科技巨头和顶尖大学论文发表情况却截然不同。
对于,这种趋势,英国卫报曾经有过一份秘密调查,显示了科技公司招聘狂潮的影响。调查发现, 许多顶级院校现在正努力满足那些大规模扩大人工智能研究团队的科技公司的需求。
这份报告说,自2014年以来,英国科技公司的人工智能岗位数量激增了485%。据一份公司内部的数据显示,每一位合格的求职者其实都身兼数职。 离开学界的大多数人都去了谷歌、Facebook、亚马逊和苹果等等公司。
换句话说,这些顶尖人才没有“分散”在社会中做出贡献,而是把自己的才华都集中到了少数公司。
另外,对于许多大学来说,从事AI研究越早的人员,流失越严重。更为直观的表现是:获得 2018 年图灵奖的三位资深学者中,两位早已投身业界,其中 Geoffrey Hinton 在谷歌,Yann LeCun 在 Facebook。
科学家的大量下海,可能对研究课题、研究质量、学院文化以及对本科生和研究生的培养产生负面影响。  
卡耐基梅隆大学的计算机科学副教授 Ariel Procaccia 对 AI 人才纷纷投身业界表示担忧:如果业界不断地挖走顶尖学者,那么由谁来培养 AI 领域的下一代创新者呢?
显然,学界人才不断流失,人工智能研究不平等的鸿沟在学界和业界之间也会不断加深。
那么,如何缩小鸿沟呢?当前已经有过很多讨论,文章作者提出的方案是: 建立国家统一的AI研究云是很有必要的。 这一举措,美国已经开始实行,例如今年6月,美国多所大学、科技公司和参议院议员都表示支持建立国家AI研究云,通过共享公共数据集帮助算力不够的机构训练和测试AI模型。
但是,小编在这想提到一个大胆的想法供读者讨论:平均是否是一种进步?换句话说,不平均是否阻碍技术的发展?纵观人类发展历史,从相对平均原始社会到目前“不平均”现代社会,好像我们的经济、科技、文化一直是螺旋式的前进。
这个问题,小编没有答案,留给读者探讨。


点击阅读原文,直达ICLR小组!

登录查看更多
0

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
专知会员服务
50+阅读 · 2021年1月19日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
44+阅读 · 2020年8月20日
AI创新者:破解项目绩效的密码
专知会员服务
32+阅读 · 2020年6月21日
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
130+阅读 · 2020年3月25日
数据标注研究综述,软件学报,19页pdf
专知会员服务
87+阅读 · 2020年2月20日
2019年全球数字化转型现状研究报告
智能交通技术
13+阅读 · 2019年6月2日
深度学习的时代将结束:25 年 16625 篇论文佐证
人工智能学家
4+阅读 · 2019年1月26日
2018,怎样成为抢手的机器学习人才
Python开发者
6+阅读 · 2018年3月1日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
7+阅读 · 2018年1月31日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2021年1月19日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
44+阅读 · 2020年8月20日
AI创新者:破解项目绩效的密码
专知会员服务
32+阅读 · 2020年6月21日
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
130+阅读 · 2020年3月25日
数据标注研究综述,软件学报,19页pdf
专知会员服务
87+阅读 · 2020年2月20日
Top
微信扫码咨询专知VIP会员