二十载AI论文大调查，十万多篇论文分析“学界鸿沟在加剧”

会员服务 ·

二十载AI论文大调查，十万多篇论文分析“学界鸿沟在加剧”

2020 年 11 月 22 日 AI科技评论

作者 | 蒋宝尚

编辑 | 陈彩娴

近日，著名科技网站venturebeat发表了一篇名为“深度学习时代，计算鸿沟正在集中权力，加剧不平等”的文章。

在文中，作者引用了几篇论文，从顶会论文发表、研究资金投入和科研人才流动等方面说明了以下几个现象：

QS排名前五十的学校平均发表66篇顶会论文，是第二、三层次学校（QS51-100、QS101-200）的近乎两倍，而AI相关公司的生产力也远超这些学校，平均发表约42篇论文。
自深度学习兴起以来，QS 301-500的大学在顶会中的论文平均减少了六篇，比预期少了25％。
2004年至2018年之间学术界前所未有的人才流失。

对于这些现象的背后原因，文章作者归纳为：GPU。作者表示，以GPU为代表的AI资源正在像大企业和顶级名校集中，会导致两极分化的马太效应。

1

学界不平等的来源：研究方式的转变

在文章中，作者引用的第一篇论文是来自弗吉尼亚理工大学和韦仕敦大学的合著“The De-democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research”。这篇论文研究了从2000到2019年，包括ACL、ICML和NeurIPS在内57个顶会，涵盖的领域包括：计算机视觉、数据挖掘、机器学习和自然语言学习等，调查样本总数多达171394篇论文。

在这篇论文中，作者也证明了： “计算”在人工智能研究中发挥的作用越来越大。

作者认为，当前计算机科学研究依然依赖算法、硬件、以及专用软件的综合作用。而计算在人工智能历史中，起到了“突破”和“确定研究方向”的作用。换句话说，在决定研究方向方面，计算机可以发挥超乎寻常的作用，算法或软件在其中起到的作用相对弱一些。

硬件确实改变了人工智能的研究格局。2012年之前，研究人员主要依赖通用硬件或者CPU。因此，那个时候，大多数研究人员使用相同的软件和硬件，比拼的是算法的优越性。

然而，在现代人工智能的研究中，由于有专门的硬件可用，因此，研究人员并不处于平等的地位。

另外，在一些大公司中，它们往往拥有高质量的专有数据集，用这些训练数据集，有助于产生高度精确的深度学习模型。最近的研究表明，Facebook、谷歌和亚马逊等大公司凭借其专有数据在人工智能研究中拥有优势，而其他资源不充足的机构却无法获得这些计算以及大型数据集。

在人才方面，这些有钱的企业往往也更能招聘和留住人才，当然这些人才借助优势的计算的数据也更能发挥自己的能力。

放眼整个人工智能的发展，正如2019年美国白宫在一份人工智能报告中，将核心问题归纳为：“[……]工业凭借其持续的资金支持，以及对先进计算设施和数据集的获取，对学术研究和教学人才产生了强大的推动作用。”

2

近二十年顶会调查：名校大厂占据半壁江山

上图展示的是57个人工智能和非人工智能会议汇总数据，以会议年为单位，涵盖2000~2019近20年的非平衡面板数据。论文总数达171394篇。

根据上述“描述性”表格，我们得知，大学机构排名和平均“出版”之间存在很强的相关性，一些有着精英名号的大学，在计算机领域也有着非常强的影响力，这些大学平均每个会议年发表66篇论文。世界排名（QS）51~100的大学，则只有35篇论文。而排名在101-200之间的近100所大学，只发表了32篇论文。

在公司层面，每年平均发表42篇，而大公司却有23篇，占比一半以上。

图注：0.30表示某一年该会议上，30%的论文至少有一位合著者是公司员工

为了更加直观的体现公司在科研中的作用，作者用上图展示了在一段时间内，与公司相关的论文在人工智能会议上的份额。上图表明，在最“著名”的十个会议中，都在经历“公司力量”的上升趋势。

此外，上图也说明了，各领域校企合作论文的比例都有不同程度的上涨，其中KDD（数据挖掘顶级会议）中合作论文在2020年比例超过50%，ICCV（国际计算机视觉大会）达到45%。

上图展示了非人工智能会议中，公司所占份额，此图展示的结果和上图不同，在大多数情况下，公司发表论文的情况是相对稳定的。值得注意的一点是， 2012年前，人工智能和非人工智能会议的企业参与率相似，只有在2012年ImageNet取得震撼成绩之后，才有更多的公司参与到人工智能中来。

此外，根据medium博主，Gleb Chuvpilo在2019年统计的年度AI研究排名，斯坦福大学、MIT、卡内基梅隆大学，加州大学伯克利分校和微软列为领先AI研究会议的六大贡献者。

3

学界人才流失：加剧鸿沟的另一个原因

学界不平等的鸿沟的另一个表现是学界人才大量流入资本，在上述那篇论文中也证实了这种人才流动导致的科技水平变化。

作者表示，自深度学习兴起以来，QS 301-500的大学在顶会中的论文平均减少了六篇，比预期少了25％，而世界500强、科技巨头和顶尖大学论文发表情况却截然不同。

对于，这种趋势，英国卫报曾经有过一份秘密调查，显示了科技公司招聘狂潮的影响。调查发现，许多顶级院校现在正努力满足那些大规模扩大人工智能研究团队的科技公司的需求。

这份报告说，自2014年以来，英国科技公司的人工智能岗位数量激增了485%。据一份公司内部的数据显示，每一位合格的求职者其实都身兼数职。离开学界的大多数人都去了谷歌、Facebook、亚马逊和苹果等等公司。

换句话说，这些顶尖人才没有“分散”在社会中做出贡献，而是把自己的才华都集中到了少数公司。

另外，对于许多大学来说，从事AI研究越早的人员，流失越严重。更为直观的表现是：获得 2018 年图灵奖的三位资深学者中，两位早已投身业界，其中 Geoffrey Hinton 在谷歌，Yann LeCun 在 Facebook。

科学家的大量下海，可能对研究课题、研究质量、学院文化以及对本科生和研究生的培养产生负面影响。

卡耐基梅隆大学的计算机科学副教授 Ariel Procaccia 对 AI 人才纷纷投身业界表示担忧：如果业界不断地挖走顶尖学者，那么由谁来培养 AI 领域的下一代创新者呢？

显然，学界人才不断流失，人工智能研究不平等的鸿沟在学界和业界之间也会不断加深。

那么，如何缩小鸿沟呢？当前已经有过很多讨论，文章作者提出的方案是：建立国家统一的AI研究云是很有必要的。这一举措，美国已经开始实行，例如今年6月，美国多所大学、科技公司和参议院议员都表示支持建立国家AI研究云，通过共享公共数据集帮助算力不够的机构训练和测试AI模型。

但是，小编在这想提到一个大胆的想法供读者讨论：平均是否是一种进步？换句话说，不平均是否阻碍技术的发展？纵观人类发展历史，从相对平均原始社会到目前“不平均”现代社会，好像我们的经济、科技、文化一直是螺旋式的前进。

这个问题，小编没有答案，留给读者探讨。

点击阅读原文，直达ICLR小组！

登录查看更多

相关内容

论文

关注 164

论文（Paper）是专知网站核心资料文档，包括全球顶级期刊、顶级会议论文，及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊，CCF-A、B、C三类。通过人机协作方式，汇编、挖掘后呈现于专知网站。

虚假评论识别研究综述

专知会员服务

52+阅读 · 2021年1月19日

机器学习模型部署都有哪些坑？剑桥研究者梳理了99篇相关研究

专知会员服务

41+阅读 · 2020年12月13日

NeurIPS 2020接收论文列表发布，1900篇论文都在这了！

专知会员服务

114+阅读 · 2020年10月8日

面向 AI 的数据管理技术综述

专知会员服务

47+阅读 · 2020年8月20日

AI创新者：破解项目绩效的密码

专知会员服务

34+阅读 · 2020年6月21日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

133+阅读 · 2020年3月25日

数据标注研究综述，软件学报，19页pdf

专知会员服务

95+阅读 · 2020年2月20日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知会员服务

145+阅读 · 2019年10月18日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

2019年全球数字化转型现状研究报告

智能交通技术

13+阅读 · 2019年6月2日

深度学习时代即将结束？ 16625篇论文梳理AI发展史

生物探索

4+阅读 · 2019年1月30日

深度学习主导人工智能时代将结束？万余篇论文梳理AI发展史

德先生

5+阅读 · 2019年1月29日

深度学习的时代将结束：25 年 16625 篇论文佐证

人工智能学家

4+阅读 · 2019年1月26日

《深度学习革命》作者：GAN令我惊艳，现在的人们对AI操之过急了

全球人工智能

6+阅读 · 2018年10月22日

【知识图谱】深度分析金融知识图谱创业：需从“数据”竞争跨向“技术”竞争

产业智能官

3+阅读 · 2018年5月19日

【AI 幽灵】超 90% 论文算法不可复现，你为何不愿公开代码？

数盟

3+阅读 · 2018年3月7日

2018，怎样成为抢手的机器学习人才

Python开发者

6+阅读 · 2018年3月1日

行业|今年超50家AI企业已倒闭，明年人工智能迎来更大倒闭潮

机器人大讲堂

6+阅读 · 2017年12月19日

中国信通院院长刘多：AI虽有泡沫，但我们更要相信投资人和创业者

镁客网

3+阅读 · 2017年9月19日

LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction

Arxiv

0+阅读 · 2021年1月27日

Advantages and Bottlenecks of Quantum Machine Learning for Remote Sensing

Arxiv

0+阅读 · 2021年1月26日

Group-based Learning of Disentangled Representations with Generalizability for Novel Contents

Arxiv

0+阅读 · 2021年1月25日

Fine-grained Sentiment Analysis with Faithful Attention

Arxiv

5+阅读 · 2019年8月19日

Adversarial Objects Against LiDAR-Based Autonomous Driving Systems

Arxiv

7+阅读 · 2019年7月11日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Visual-textual Attention Driven Fine-grained Representation Learning

Arxiv

3+阅读 · 2018年4月26日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Open Information Extraction on Scientific Text: An Evaluation

Arxiv

6+阅读 · 2018年2月15日

Visually Explainable Recommendation

Arxiv

7+阅读 · 2018年1月31日

VIP会员