重磅！斯坦福2018全球AI报告，七大维度数据公开【附下载】| 智东西内参

2018 年 12 月 16 日 智东西

看点：从学术研究、产业等方面介绍2018年AI的发展，并记录计算机视觉、自然语言理解等领域的技术进展。

斯坦福全球 AI 报告从去年开始发布，该报告由斯坦福大学主导，专家组包括来自SRI公司、麻省理工学院、OpenAI、麦肯锡、哈佛等机构的多位专家，旨在通过具体数据全面追踪人工智能的最新进展。

本期的智能内参，我们推荐来自斯坦福大学的报告《2018全球AI年度报告》，从学术研究、产业、软件开源、公共利益等方面介绍2018年AI的发展，并记录计算机视觉、自然语言理解等领域的技术进展。如果想收藏本文的报告全文（斯坦福：2018全球AI年度报告），可以在智东西公众号：（zhidxcom）回复关键词“nc309”获取。

以下为智能内参整理呈现的干货：

2018AI论文发表概况

1、按学科分类

下图显示了学术论文的年度出版率相对于1996年的比率的增长。该图比较了所有科研领域、计算机科学（CS）和人工智能（AI）的论文增长。

从从1996年到2017年，每年发表的AI论文的增长率都超过了CS领域，这表明AI论文的增长不仅仅是出于人们对计算机科学的兴趣增加。

▲1996-2017论文按学科分类发表增速

2、按地区分类

下图显示了按地区分类发表的AI论文数量。欧洲一直是AI论文的最大生产地 - 2017年Scopus的AI论文中有28％来自欧洲。与此同时，尽管2008年左右中国论文数量出现波动，2007年至2017年在中国发表的论文数量增加了150％。

▲1998-2017论文按地区分类发表增速

3、细分领域分类

下图按子类别展示了Scopus上的AI论文数量。类别不是互斥的。 2017年发表的AI论文中，有56%来自机器学习与概率推理（Machine Learning and Probabilistic Reasoning）这一研究方向，而2010年只有28％。图中展示的大多数2014 - 2017年期间的论文发表速度都比2010 - 2014年期间快。最突出的是神经网络（ Neural Networks ）方向，2010 - 2014年复合年增长率（CAGR）只有3％，而2014 - 2017年的复合年增长率达到37％。

▲1998-2017 Scopus子类别的AI论文数量

4、 arXiv 上的AI论文

arXiv 是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站。下图显示了arXiv上的AI论文数量。右轴是指arXiv上所有AI论文的总和（由灰色虚线表示）。
arXiv上的AI论文数量一直在增加。这些论文无论是经过同行评议还是已被AI会议接受，都表明AI作者倾向于传播他们的研究，这也表明了该领域的竞争性。自2014年以来，计算机视觉（CV）和模式识别是arXiv上最大的AI子类别。这除了表现出人们对计算机视觉的兴趣日益增长之外，这也表明其他AI应用领域的增长。

▲arXiv上按子类别划分的AI论文数量（2010-2017）

5、按地区活动关注度分类

下图显示了美国，欧洲和中国的相对活动指数（RAI）。 RAI通过将其与AI中的全球研究活动进行比较来近似区域的专业化程度。 RAI被定义为一个国家的AI出版物产出相对于AI出版物全球份额的份额。1.0表示一个国家在AI中的研究活动与AI中的全球活动完全一致。高于1.0的值意味着更重视，而低于1.0的值意味着较少重视。中国的AI论文更侧重于工程技术和农业科学，而美国和欧洲的AI论文则倾向于关注人文科学和医学与健康科学。与2000年的数据相比，2017年的数据显示，这三个地区的专业化程度提高，而中国则转向农业。这符合我们的预期，因为中国是最大的食品生产国，并且倾向于将其研究重点放在应用AI上。

▲各区域AI研究关注重点（2000年）

▲各区域AI研究关注重点（2017年）

6、按机构关注度分类

下图展示了与政府，企业和医疗机构有关的Scopus论文数量。 2017年，中国政府发表的AI论文数量几乎是中国企业的4倍。自2007年以来，中国的政府发表AI论文数量增加了400％，而同期企业AI论文仅增加了73％。在美国，相对较大比例的AI论文是由公司发表。 2017年，美国企业AI论文的比例比中国企业AI论文的比例高6.6倍，比欧洲高4.1倍。

▲中国按机构分类的AI论文（1998-2017）

▲美国按机构分类的AI论文（1998-2017）

▲欧洲按机构分类的AI论文（1998-2017）

▲各地区企业发表AI论文的增长（2009-2017）

▲各地区政府发表AI论文的增长（2009-2017）

7、AI论文引用概况

下图显示了地区划分AI作者的平均加权引用。加权引用（FWCI）是AI作者在该地区接收的平均引用次数除以所有AI作者的平均引用次数。FWCI显示了学者引用书相对于世界平均水平。FWCI为0.85表明论文的引用率比世界平均水平低15％。虽然欧洲每年发布的AI论文数量最多，但欧洲的FWCI仍保持相对平稳，与世界平均水平相当。相比之下，中国已大幅增加其FWCI。 2016年，中国的AI作者被引用率比2000年高出44％。尽管如此，美国的总引用率仍高于其他地区，比全球平均水平高出83％。

▲AI作者的地域加权引用（1998-2016）

8、各国AAAI论文

下图显示了按国家分列的2018年人工智能促进协会（AAAI）会议提交和接受的论文数量。 2018年AAAI会议于2018年2月在路易斯安那州新奥尔良举行。AAAI 提交论文，中美占70%，中选论文，中美占67%。中国的论文提交数高出美国约1/3，但二者中选论文数相差无几，中国入选265篇，美国入选268篇。

▲AAAI会议提交和中选论文

高校AI课程注册情况

1、学生人数

下图显示了入读AI和机器学习（ML）课程的本科学生的百分比。虽然选择AI课程的本科生比例往往略高于ML课程（人工智能平均为5.2％，ML为4.4％），入读ML课程的本科生人数增长速度更快。这显示了机器学习作为AI子领域日益增长的重要性。

▲在AI入门课程中注册的本科生比例

▲ML专业(2010-2017)在校大学生比例

2、美国AI课程

下图显示了美国几所领先的计算机科学大学的AI和ML课程注册的增长情况。 2017年入门AI入学人数比2012年增加了3.4倍，而2017年ML课程入学人数比2012年增加了5倍。加州大学伯克利分校2017年入门ML课程的学生人数是2012年的6.8倍。

▲AI课程入学人数增长情况（2012-2017）

▲ML课程入学人数增长情况（2012-2017）

3、国际AI课程

下图和下一页的图表显示了美国以外几所领先的计算机科学大学的AI和ML课程注册。2017年，清华大学的AI + ML课程入学人数比2010年增加了16倍，是非美国院校外增长率最高的高校，几乎是第二名多伦多大学的2倍。

▲美国外人工智能+ML课程注册人数增长情况。(2010 - 2017)

AI会议概况

1、大型学术会议

下图显示了大型AI会议的出席人数以及相对于2012年的大型会议出席人数的增长。大型AI会议是2017年有超过两千名与会者参加的会议。在大型会议中，NeurIPS (曾用名NIPS) 、CVPR和ICML，是参与人数最多的三大AI会议。自2012年以来，论参与人数的增长率，这三者也领先于其他会议。NeurIPS和ICML参与人数增长最快：2018年与2012年相比，NeuRIPS增长3.8倍，ICML增长5.8倍。

▲大型AI学术会议参会情况

▲大型学术会议参与率

2、小型学术会议

下图显示了小型AI会议的出席人数以及相对于2012年小型AI会议出席人数的增长情况。小型人工智能会议是2017年参会人数不足两千人的会议。ICLR 2018年的出席人数比2012年增加了20倍。这种增长很可能今天人工智能内部更加注重深度和增强学习的结果。

▲小型AI学术会议参会情况（1995-2018）

▲小型学术会议参与率

AI创业公司/投资

1、AI创业公司

下图显示了某一年度活跃的风险投资支持的美国私营初创公司的数量。蓝线（左轴）仅显示AI初创公司，而灰线（右轴）显示所有风险投资支持的初创公司，包括AI初创公司。该图表显示了每年1月份的初创公司总数。从2015年1月到2018年1月，活跃的AI创业公司增加了2.1倍，而所有活跃的创业公司增加了1.3倍。在大多数情况下，所有活跃初创公司的增长保持相对稳定，而AI创业公司的数量呈指数级增长。

▲美国AI创业公司（1995年1月 - 2018年1月）

2、风险投资

下图显示了风险投资公司（VC）在所有融资阶段向活跃的美国创业公司提供的年度资金数额。蓝线（左轴）仅显示AI初创公司的资金，而灰线（右轴）显示所有风险投资支持的初创公司（包括AI初创公司）的资金。从2013年到2017年，AI VC融资增加了4.5倍，而所有风险投资资金增加了2.08倍。 1997 - 2000年所有风险投资基金的繁荣可以用互联网泡沫来解释。 2014年和2015年较小的繁荣反映了经济增长。

▲美国AI创业公司的年度风险投资资金（1995年 - 2017年）

AI人才和专利

1、人才需求

下图显示了所需的AI技能每年的职位空缺数量，以及所需的AI技能的职位空缺的相对增长。虽然ML是最重要的技能要求，但深度学习（DL）正在以最快的速度增长 - 从2015年到2017年，需要DL的职位空缺数量增加了35倍。

▲AI职位空缺(2015 - 2017)

▲按所需AI增加职位空缺(2015 - 2017)

2、专利

下图显示了发明人地区划分的AI专利数量和增长情况。 AI专利使用IPC代码进行汇总，这些代码属于认知和意义理解以及人机界面技术领域。 2014年，大约30％的AI专利来自美国，其次是韩国和日本，每个专利持有16％的AI专利。在顶级发明地区中，韩国和台湾取得了最大的增长率，2014年AI专利数量几乎是2004年的5倍。

▲按发明人地区划分的AI专利(2004-2014)

▲按发明人地区划分的人工智能AI专利增长概况（2004-2014）

企业和政府关注度

1、财报电话会议中提及AI和ML的次数

下图显示了按行业划分的公司盈利电话中的人工智能（AI）和机器学习（ML）关键词次数。第一张图表仅显示了科技公司，因为该行业拥有更大规模的AI和ML提及。第二张图显示了IT以外的行业提到的AI次数，。 2015年提到AI和ML的IT公司持续增加。对于大多数其他行业而言，这一增长始于2016年。在财报电话会议中，除了科技行业之外，提及AI次数最多的公司，基本上分布在消费、金融和医疗保健行业。

▲科技公司财报电话会议提到AI次数(2007-2017)

▲其他公司财报电话会议提到AI次数(2007-2017)

2、政府关注度

下图显示了美国国会记录中的人工智能和机器学习以及加拿大和英国议会的诉讼记录（称为Hansards）。在这三个政府中，这些术语的提及自2016年以来出现飙升。此外，在这三个国家中，机器学习在2016年之前很少被提及，并且相对于人工智能而言仍然只占总提及的一小部分。

▲美国国会提到AI和ML次数（1995-2018）

▲英国议会提到AI和ML次数（1980-2018）

▲加拿大议会提到AI和ML次数（2002-2018）

最新技术性能

1、图像识别： ImageNet

下图显示了随时间变化的ImageNet准确度分数。2017年是ImageNet比赛的最后一届，2018年这项比赛就不再进行了。不过，验证集依然有人在用。图中，蓝色的线条为ImageNet挑战赛历年的成绩变化，由于每年比赛所用的数据不同，旁边多了一条黄色线条，是以ImageNet 2012验证集为评价标准绘制的。可以看出，到2015年，机器在图像分类任务上的能力已经明显超越了人眼，而即使比赛不再继续，学术研究者依然在认真推进该任务的表现。这也侧面说明，如果一项工作有了明确的评价标准和固定的挑战内容，研究者们围绕此竞争，更容易让技术在该领域取得突破。

▲ImageNet (2010 —2018)

下图显示了训练网络以高精度从ImageNet语料库（图像数据库）对图片进行分类所需的时间。该度量标准代表了AI领域中资源良好的参与者为了训练大型网络执行AI任务（例如图像分类）所花费的时间。由于图像分类是一种相对通用的监督学习任务，因此该指标的进展也与其他AI应用程序的更快训练时间相关。在一年半的时间里，培训网络所需的时间从大约一小时减少到大约4分钟。

▲ImageNet训练时间（2017年6月 - 2018年11月）

2、实例分割： COCO

ImageNet挑战赛结束以后之后，CV领域把重点放在了微软的COCO，挑战语义分割和实例分割。四年来，COCO数据集上图像分割挑战的精确度已经提升了0.2，2018年的成绩比2015提升了72%。不过，目前还没有超过0.5，这一项还有充足的进步空间。

▲COCO实例分割挑战(2015-2018)

3、语义分析

下图显示了AI系统在确定句子句法结构的任务上的表现。解析度量是在某些任务中理解自然语言的第一步，例如问答。最初使用类似于解析编程语言的算法完成，现在几乎普遍使用深度学习。自2003年以来，所有句子的F1得分都提高了9个百分点。

▲选区解析 - Penn Treebank（1995-2018）

4、机器翻译

下图显示了AI系统在将新闻从英语翻译成德语，德语翻译成英语的任务中的表现。从英语到德语的BLEU分数今天比2008年高出3.5倍。从德语到英语的翻译在同一时间段内翻了2.5倍。因为每年使用不同的测试集，所以不同年份的得分不完全可比。然而，BLEU分数表明了机器翻译的进展。

▲新闻翻译- WMT挑战(2008-2018)

5、问题解答：ARC

下图显示了AI2推理挑战（ARC）随时间性能进展。 ARC数据集包含7,787个真正的小学水平（美国3 - 9年级），多选科学问题，以鼓励高级问答的研究。问题分为挑战集（2,590个问题）和简易集（5,197个问题）。挑战集仅包含基于检索的算法和单词共现算法错误地回答的问题。问题是纯文字，英语考试问题，涵盖文件中指出的几个年级。每个问题都有多项选择结构（通常有4个答案选项）。这些问题伴随着ARC语料库，这是一套14M无序的科学相关句子，包括与ARC相关的知识。无法保证可以在语料库中找到问题的答案。 ARC基准测试于2018年4月发布.2018年的性能在Easy Set上从63％上升到69％，在Challenge Set上从27％上升到42％。

▲ARC排行榜(2018年4月- 2018年11月)

6、问题解答：GLUE

下图显示了GLUE基准测试排行榜的结果。通用语言理解评估（GLUE）是一个新的基准，旨在测试自然语言理解（NLU）系统的一系列任务，并鼓励开发不适合特定任务的系统。它由九个子任务组成 - 两个单句（测量语言可接受性和情感），三个关于相似性和释义，四个关于自然语言推理，包括Winograd模式挑战。语料库大小从不到1,000到超过400,000。指标包括准确度/ F1和马修斯相关系数。尽管基准测试仅在2018年5月发布，但性能已经提高，大约是第一个公布基线与估计的非专家人员水平约90％之间的差距的一半。

▲GLUE基准排行榜（2018年5月至2018年10月）

智东西认为，中国在人工智能领域的技术发展和市场应用方面已经进入了国际上的前沿发展国家群体，呈现出中美双雄共同领跑的局面。从科技产出等方面来看，中国人工智能发展的总体水平和美国相比仍有差距，但已经超过大部分国家。在论文和专利等指标上，中国已经有了一定的领先优势。总体来看，在AI这个风口上，中国已经占据了较高的起点。

级公开课Cadence专场震撼来袭，全球EDA巨头重磅开讲！主讲群仅限300名额，欢迎扫码报名。