Keras 作者François新作：通往真正的智能需要测量「智慧」，而非测量某个具体能力

2019 年 11 月 13 日 AI科技评论

测量智慧

编译 | 杨晓凡

编辑 | 唐里

著名深度学习研究员、谷歌大脑研究员、Keras 库作者（以及 Twitter 活跃分子）François Chollet 近期在 arXiv 上公开了一篇论文《The Measure of Intelligence》（ arxiv.org/abs/1911.01547 ）。正如标题，这篇论文讨论的是人类应该如何理解以及正确地测量生命体/智能体的智慧。

François Chollet 对机器学习领域里「大肆炒作模型在单个任务中的表现」的惯例非常不满，他认为这并不能体现「智慧」。比如 CNN 家族在 ImageNet 图像分类中超越人类、AlphaGo 在围棋中击败人类、OpenAI Five 在 DOTA2 中击败人类、AlphaStar 在星际 2 中击败人类，诸如此类的学术研究进展，即便确实是在非常复杂的任务中取得了比人类更好的表现，我们也无法认可这些模型就拥有了「智慧」。相比之下，乌鸦、海豚之类的动物更被人类认为是「有智慧」的。所以，AI 系统是否拥有「智慧」的标准可能是什么样的，我们又应该用什么样的方法测量 AI 系统，这就是 François Chollet 在这篇论文中着重讨论的。

核心观点

AI 研究员 Emil Wallner 对这篇论文的内容做了简单的解读——

核心观点： 我们不应该测量某个具体能力，然后把它作为 AI 系统的适应能力和灵活性的测量手段。只要有无限多的数据，模型就可以记忆如何做决策。如果想要发展通用人工智能（AGI）的话，我们需要想办法量化、测量「学习新能力的效率」。

1970 年代的时候，许多人都认为棋类游戏可以代表人类理性思维的至高水准，如果人类能用计算机解决棋类问题，就表明人类在认知、理解方面又达到了一个新的里程碑。但 IBM 的「深蓝」出现并击败卡斯帕洛夫之后，大家发现整个研发过程并没能帮助我们更好地理解人类思维。

深蓝当然是谈不上「智慧」的，但我们会认为人类的棋类高手有很高的智慧。这其实是因为我们把下棋的水平和一类「元技能」联系到了一起：我们认为棋下得好表示这个人有很强的逻辑思维能力，他除了下棋之外，在数学和推理方面也会很厉害。所以我们拟人化地理解 AI 的时候也会不由自主地走同样的路线，认为能很好地掌握某种技能，也就掌握了其它一些相关的技能和思维，也就成了通用人工智能。

François Chollet 在论文中指出，DeepMind 的 AlphaZero 这种棋类游戏智能体其实就既不灵活也不通用，他把它比做一个哈希表查找器，只不过在做一些局部敏感度的哈希函数计算而已。只要有了无限多的模拟计算结果，就完全可以直接在棋盘上的落子情况和理想的动作之间找到对应关系。

Chollet 认为，现阶段 AI 研究的「以任务表现为中心」的研究思路其实才是我们走向通用人工智能的瓶颈。他认为我们其实应该走另一条路线，Hernandez-Orallo 路线： 「AI 是这样一门科学和工程学，它造出的机器能完成从来没有见过、从来没有提前准备过的任务」 。

在论文的 II.2 节，Chollet 正式提出了他的核心想法：要了解一个系统的智慧水平，应当测量它在一系列不同任务中表现出的获得新能力的效率；这和先验、经验、泛化难度都相关。

为了避免只有局部泛化能力的系统在某些特定任务中可以用训练「换来」好的表现，Chollet 把先验的条件限制为「发展科学理论」（developmental science theory）中允许的「核心知识」，比如基础物理学、算数、几何学知识，以及对意图的基本理解。

根据他勾画出的理想做法，Chollet 创建了一个 ARC 数据集，「Abstraction and Reasoning Corpus」，意为「抽象和推理语料库」。这个数据集的设计方法借鉴了人类的 IQ 测试中的抽象和推理部分（反映流体智力 fluid intelligence），内容比如

ARC 数据集中包含 400 个训练任务以及 600 个评价任务。这个数据集的核心特点包括：

评价任务集中的任务都是全新的（和训练任务没有重叠）
高度抽象
和人类的 IQ 测试类似
每个任务有三个示例
固定的&有限的训练数据
对进行测试的 AI 系统的先验有一组明确的指定

《The Measure of Intelligence》这篇论文是对近几年流行的「大数据、高计算量解决一切问题」的做法的旗帜鲜明的反对，而且 Chollet 也在论文中介绍了许多历史背景，这让这篇论文对不熟悉相关话题的读者来说也不那么难懂。

研究背景

François Chollet 自己在发布论文的同时，也在推特上从介绍了自己如何写出这篇文章——

我刚刚公开的这篇稍微有点长的论文是关于「智慧」的定义和测量的，论文里还介绍了一个新的 AI 评价数据集 ARC（抽象和推理语料库）。在过去的两年里我自己一直在断断续续地研究它。

这篇论文的内容包括：

直到目前我们如何定义 AI、如何评价 AI 的历史和讨论
提出一种「智慧」新的定义，以及提出针对理想的通用 AI 的评价方式的大纲
介绍了 ARC 数据集的目标以及它的逻辑

在过去的十年中我经常在演讲里、聊天里或者推特上谈到有关「智慧」的话题，这篇论文就是我尝试给它做出一个正式的定义的结果，让它有帮助、可实施。 ARC 数据集本身也让我开启了一个很有趣的研究方向，我希望你们也会觉得它有用。

我需要强调一下，我在这篇论文里给出了智慧的定义，但并不意味着它就是智慧的真正的、唯一的定义；这也不是这些讨论的重点所在。智慧是一件很复杂的事情，在不同的语境下可以有不同的体现。对智慧，以及对于 AI，可能有很多种定义方式都是可行的。

最近我在算法开发方面也有一些进展，有一个算法已经起码能够解决 ARC 数据的一小部分；它是基于认知理论的（自动抽象），我在这个课题上已经花了很多时间精力了。我希望在不久的将来就可以和大家分享这些想法和代码。

我从 2009 年开始就有了这个理论的大概想法，它从 ONEIROS 项目 (Open-ended Neuro-Electronic Intelligent Robot Operating System) 中借鉴了很多重要的元素，ONEIROS 是一个我在 2009 年到 2012 年之间参与开发过的一个通用 AI 架构（后来我在 2014 年也做过一段时间，然后就基本废弃了）。它的基础是一个经典的强化学习的思维模式，主要关注的是，1，学习时空特征的模块化、层级化的映射关系（通过 PMI 矩阵分解，而不是梯度下降）； 2，通过一种注意力机制实现上下文转换； 3，固有动机（也就是好奇心）

它的宣传语是「认识是一种动态的、模块层次化的感知&运动信息空间的映射」。我把这个称作「映射理论」 —— 应该有那么两三个人能记得我在 2010 到 2012 年之间提到过这个。我觉得 ONEIROS 在好几个方面都做对了（尤其考虑到在那个时候就已经有这样的思维高度），但可惜的是它最终还是没能解决真正核心的问题： 「抽象」的本质 。这就是我现在在尝试解决的，也是我设计 ARC 所针对的问题。

我们的研究错误

稍后他还做出了一些额外的（批评）和补充：

大概可以这么说，我们（研究人员以及普通大众）对 AI 技术的认知里的所有错误的部分，都可以把原因归结为过度的拟人化。但 AI 很狡猾，人类设计 AI 、训练 AI 想让它模仿哪一两个人类技能，它就会完完全全地只模仿这一两个技能，而完全学不到其它的（即便看起来很相关）的技能。在这个过程里，AI 还会尝试走所有有可能的捷径、发掘各种能带来提升的小窍门甚至环境中的 bug，而不会主动遵循人类本来规划的「正道」，最终得到的系统也就和人类的思维没有任何共通之处。

可以把 AI 比做一部认知动画——表面上看起来它能动，但其实只不过是在纸上画出的一系列近似的、模仿人类情感和动作的图形而已。 Sophia 这样的机器人都可以算是当代 AI 的典范。

AI 相比于认知抽象能力，就像动画人物相比于人类情感一样。最关键的是，即便当前的 AI 系统中体现出了不少数据抽象后的编码、可操作化特征，但这基本上也和真正的智慧中的「自动抽象」没什么关系；就像创造新的动画角色和创造新的生命形式没什么关系一样。

真正的 AI 研究，我们连门都还没摸到呢。

AI 科技评论曰

在论文公开后的几天内，许多研究人员都阅读论文并给出好评，以及自己尝试 ARC 中的任务并玩得不亦乐乎。许多人都表示赞同 François Chollet 对智慧的观点，而且极为推荐这篇论文。 AI 科技评论也建议感兴趣的读者仔细阅读论文原文，近距离感受这趟思维之旅。

论文地址： arxiv.org/abs/1911.01547

示例程序和数据集开源： github.com/fchollet/ARC