注水、占坑、瞎掰：起底机器学习学术圈的那些“伪科学”

会员服务 ·

注水、占坑、瞎掰：起底机器学习学术圈的那些“伪科学”

2018 年 7 月 16 日 大数据文摘

大数据文摘出品

编译：张秋玥、浩哥儿、倪倪、Fei、Virgil、钱天培

最近的机器学习圈让人有些看不懂。

一边是今年的NIPS迎来了创纪录的8000多篇投稿，一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认，机器学习发展已进入瓶颈期。

对此，卡耐基梅隆大学的Zachary C. Lipton教授和斯坦福的Jacob Steinhardt教授联合发表题为《Troubling Trends in Machine Learning Scholarship》的论文。

他们毫不留情面地指出：机器学习圈内有太多搞“伪科学”的现象！

文摘菌对该文进行了翻译。让我们一起来看，这几年机器学习圈究竟出了哪些幺蛾子。

注：本文出现的方括号中的数字指向参考文献（如[18]）。在后台回复“伪科学”可获取本文参考文献的完整列表。

介绍

机器学习（ML）研究人员共同致力于创造和传播有关数据驱动算法的知识。在研究人员撰写的论文中，他们可能力求实现以下这些目标：理论地描述可学习的内容，通过严谨的实验来加深理解，或者构建具有高预测准确性的系统。

虽然确定对哪些课题进行调查研究可能是主观的，但一旦主题确立，论文只有（客观地）从读者的需求出发，创造基础性的知识，并尽可能表述清楚，才能做出最有价值的学术贡献。

什么样的论文能最好地为读者服务呢？我们可以列举出这样的论文需要满足的条件。这些论文应该：

1. 帮助读者基于直觉进行理解，但直觉解释要和证据所支持的更强有力的结论区分开来;

2. 描述那些考虑并排除了其他假设的实证调查[62];

3. 明确理论分析与直觉或经验主张之间的关系[64];

4. 使用正确的语言帮助读者理解，选择术语以避免误导或使用未经证实的概念内涵，防止与其他定义的冲突，或与其他相关但不同概念的混淆[56]。

机器学习不断有新的进展，尽管这些进展经常偏离这些理想目标。在本文中，我们着重关注以下四种ML学术上的偏离趋势：

1.未能区分解释和推测。

2.未能确定实验增益的来源，例如当增益实际上源于超参数调整时，却强调增益是源于对神经网络模型架构的不必要的修改。

3.滥用数学：数学的使用或混乱或表达过度而没有达到应使概念明晰的效果，例如：混淆技术和非技术概念。

4.滥用语言，例如通过选择具有口语内涵的专门术语或重载已有的技术术语。

这些趋势背后的原因未明，这可能是由于ML学术圈的快速扩张，由此导致的审核人员日益供不应求，以及学术和成功的短期衡量标准之间经常出现的错位激励（例如文献引用量，注意力和创业机会）等因素。虽然每种模式都或多或少有了相应的补救措施，但我们还是想整体讨论一下这个问题，对学术圈要如何应对这些趋势提出一些不成熟的小建议。

随着机器学习的影响日益增长，研究论文的受众逐渐拓展到了学生、记者和政策制定者，甚至更广泛的群体。我们希望研究论文可以通过清晰地传达更准确的信息，来加快研究进度，缩短新研究人员的入行时间，并在公共话语中发挥更具建设性的作用。

学术研究的漏洞会误导公众，动摇ML的知识基石，从而阻碍未来的研究。实际上，在人工智能的历史中，更广泛地说，在科学研究中，许多这些问题已经周而复始地循环发生。

1976年，德鲁麦克德莫特[53]指责人工智能学术圈放弃了自律，并预言警告说“如果我们不能做自我批评，别人迟早会替我们来完成。”类似的讨论在整个80年代，90年代[13,38,2]中再次出现。在心理学等其他领域，不良的实验标准削弱了大众对该学科权威的信任[14]。目前机器学习的强大力量要归功于迄今为止大量严谨的研究，包括理论研究[22,7,19]和实验研究[34,25,5]。通过提倡清晰的科学思考和交流沟通，我们可以继续维持我们学术圈目前所享有的来自学术社区的信任和投资。

声明

该文选取的案例多数来自于机器学习圈内的资深科研者。考虑到新人缺乏对等的渠道回应或反击我们的质疑，我们不对他们的作品作过多评价。

令人堪忧的趋势

在下面的每一小节中，我们将（1）描述一个趋势;（2）提供相应的几个例子（正反皆有）;（3）解释后果。指出个别论文中的弱点可能比较敏感，所以为了最大限度地减少这样的影响，我们尽量使得例子简短而具体。

解释与推测

对新领域的研究通常涉及以直觉为基础的探索，这些直觉尚未融合成清晰的知识观点。我们认识到推测作为一种方式，可以让作者传授可能尚未经过严格科学审核的直觉理解。然而，有些论文通常以解释为幌子发表实则是推测的观点，而由于科学论文一贯严谨的声誉和作者被假定的专业性，这些推测被进一步视为了权威。

例如，[33]围绕一个称为内部协变量偏移（internal covariate shift）的概念提出了一个直观的理论。从摘要开始，对内部协变量偏移的阐述似乎表明了文章陈述的是技术事实。然而，文中没有清晰定义关键术语，因而不能最终确定真值。例如，该文指出批量标准化（batch normalization）通过减少训练过程中隐藏激活层（hidden activation）分布的变化改进了模型。

那么是通过哪种散度度量来量化这种变化的呢？该论文从未澄清过。有些研究表明这种对批量标准化的解释可能并不正确[65]。然而，[33]中给出的推测性解释已被作为事实引用，例如在[60]中指出，“众所周知，由于内部协变量偏移问题，深度神经网络很难被优化。”

我们自己也因为将解释包装成猜测而同样问心有愧。在[72]中，JS表示“高维度和大量的无关特征为攻击者提供更多空间来构建攻击”，却没有进行任何实验来衡量维度对攻击性的影响。而在[71]中，JS引入了直观的覆盖概念而没有对其进行定义，并将其用作一种解释形式，例如：“回想一下，缺乏覆盖率的一个症状是对不确定性的不良估计和无法产生高精度预测。”回顾过去，我们希望传达对论文中描述的工作具有重要意义的想法，我们不愿意将我们论证的核心部分标记为推测性的。

与上述例子相反，[69]将推测与事实做了区分。虽然这篇文章中介绍了dropout regularization（训练神经网络的一个小技巧），并详细推测了dropout和有性生殖之间的联系，但却专门把这些推测放入了一个名为“动机”的部分，明确地将两者区分开来。这种做法既避免了让读者感到困惑，同时作者也能够表达其非正式的想法。

在另一个正面的例子中，[3]提出了训练神经网络的实用指南。在这里，作者仔细表明了不确定性。该论文没有将指南作为权威提出，而是说：“虽然这些建议来自多年的实验，并且在某种程度上是经过数学验证的，但我们仍旧应该提出质疑并改进。这些建议是一个很好的起点，但通常没有经过正式的验证，留下许多问题可以通过理论分析或坚实的比较实验工作来解决。”

无法明确经验成果的真实来源

机器学习专家评审过程中非常重视技术创新。也许为了满足评论者的这一需要，许多论文都强调复杂的模型（在这里提到）和花哨的数学（见§3.3）。虽然复杂模型有时是合理的，但也还有其他很多方向同样可以带来经验成果：通过巧妙的问题公式、科学化的实验，优化上的经验积累，数据预处理技术，广泛的超参数调整，或通过将现有方法应用于有趣的新任务。有时，一系列提出的技术共同取得了重要的实证结果。在这些情况下，它需要读者自己去理解哪些技术是该报告所必需的核心技术。

很多时候，作者提出了很多调整，但没有进行适当的消融研究（ablation study，指通过切分研究/对照实验/条件删减等，来排除其他因素干扰），以至模糊了取得经验成果的来源。有时候，仅仅是其中一项的调整导致了结果的改进。这可能会给读者一种假象，即作者做了大量的工作（提出了几项改进措施），而事实上，作者做的并不够（没有进行适当的消融研究）。此外，这种做法误导读者相信所有提到的更改都是必要的。

最近，Melis等人[54]验证了其中一系列他们已经公布的成果：这些成果最初被归因于网络架构的复杂创新，实际上是由于更好的超参数调整。同样的，从1997年以来几乎没有被修改过的最初版本的LSTM（长短期记忆网络）一直表现卓越。所以说，Melis等人的研究最重要的部分其实是超参数调整。对于深层强化学习（deep reinforcement learning）[30]和生成性对抗网络(GAN)[51]，也已经发现类似的评估问题。有关经验严谨性和后果失误的更多讨论，请参见[68]。

相比之下，许多论文进行了良好的消融分析[41,45,77,82]，甚至回顾性的尝试将实验成果的来源分离开，这也可能导致新的发现[10,65]。不过，消融其实并不是我们理解一个新方法的充要条件，并且考虑到算力因素也不一定实际可行。对方法的理解同样可以源于对鲁棒性的检验（例如[15]发现现有的语言模型无法处理屈折语素）以及错误的定性分析。

经验性研究旨在加强理解，甚至可以在没有新算法的情况下发挥作用。例如，探测神经网络的行为导致识别它们对对抗性扰动的敏感性[74]。仔细的研究也经常揭示致力于刷新挑战数据集基线的局限性。[11]研究设计一个用于阅读理解新闻段落的任务，并发现73％的问题可以通过查看单个句子来回答，而只有2％的问题需要查看多个句子（其余25％的例子要么模棱两可、要么共指错误）。

此外，更简单的神经网络和线性分类器在此例中要优于以前任务中评估的复杂神经架构。基于同样的精神，[80]为Visual Genome Scene Graphs的数据集（视觉基因组）分析并构建了的强基线。

滥用数学

在我们（ZL）撰写早期的博士论文时，我们收到了一位经验丰富的博士后的反馈，他声称该论文需要更多的公式。博士后并没有认可该系统，但却清楚地透露了论文审核的“潜规则”——更多的公式更有助于评论者相信论文的技术深度，即使有些公式难以理解。

数学是科学交流的重要工具，正确使用时可传递精确性和清晰度。然而，并非所有的想法和主张都适用于精确的数学描述，自然语言同样是一种不可或缺的交流工具，尤其是关于直觉或经验主张的交流。

当数学和自然语言陈述混合在一起而没有清楚地说明它们的关系时，文章和理论都会受到影响：理论中的问题会被模糊的定义来掩盖，同时薄弱的论点会被技术深度的表象支持。我们将这种正式和非正式的主张的纠结称之为数学滥用，正如经济学家Paul Romer所描述的这种模式：“就像数学理论一样，数学滥用利用语言和符号的混合，但并没有做紧密的关系连接，而是在自然语言声明和正式语言声明之间留下了足够的滑动空间。”

数学滥用表现在几个方面：

第一，一些论文滥用数学来表示技术深度 – 旨在“威吓”而非澄清。假定理是常见的罪魁祸首，这些定理插入到论文中强行赋予经验主义结果权威性，即使定理的结论实际上并不支持论文的主要主张。我们（JS）在[70]中犯了这个错误，其中对“staged strong Doeblin chains”的讨论与提出的学习算法不怎么相关，但是给读者带来了一种理论深度感。

提出Adam优化器[35]的文章也犯了同样的错误，这证明了这个问题无处不在。在介绍它是一个在实证上表现强大的优化器的过程中，它还提出了其在凸案例中收敛的定理，而这在关注非凸优化的应用文章中是不必要的。这个证明后来在[63]证明中是不正确的。

其次，看似正式却又不正式的主张同样带来诸多问题。例如，[18]认为优化神经网络的困难不是来自局部最小值，而是来自鞍点。作为一项证据，这项工作引用了一篇关于高斯随机场的统计物理论文[9]，并指出高维高斯随机场的所有局部最小值都可能有一个非常接近全局最小值的误差（类似的陈述也出现在[12]的相关研究中）。

这可能是一个正式的主张，但缺乏一个特定的定理使其很难验证声称的结果或确定其准确内容。我们的理解是相较于说（局部最小值和全局最小值）差值在高维度下会消失，这个主张其实算是更（部分）数学一些了。但我们需要一个更正式的声明来明确这一点。同样是在[18]我们发现另一个观点，即局部最小值比起鞍点上的损失函数要小，则被更明确地声明且测试论证。

最后，一些论文以过于宽泛的方式引用理论，或者引用一些不太具有针对性的定理。例如，“没有免费午餐”的定理通常作为使用没有保证的启发式方法的理由，即使该定理并没有将有保证的学习程序排除出去。

虽然数学滥用的最好补救方式就是避免它，但有些论文会进一步做出好的示范。最近的一篇关于反事实推理的论文[8]非常扎实的包含了大量的数学基础，并且与其应用的经验性问题有明确的关系。这个指导，清晰明了的提供给读者，有助于促进新兴社区研究机器学习中的反事实推理。

语言误用

我们发现在机器学习方面关于语言的误用通常可以分为三类：暗示性定义、术语重载、“行李箱词”。

暗示性定义

第一类中，研究者会生造出一个一个新的技术术语，并使它具有具有一定的暗示性。这通常体现出拟人化特征（阅读理解[31]和音乐创作[59]）和技巧（好奇心[66]和恐惧[48]）。许多论文以提示人类认知的方式命名所提出的模型的组成部分，例如， “思想载体[36]”和“意识先验[4]”。

我们的目标不是要消除含有这些语言的所有学术文献; 如果合理，这些语言的运用可能会传达富有成效的灵感来源。然而，当一个暗示性术语被指定了技术含义时，其后的论文别无选择地会使自己的读者困惑，不管是通过接受该术语或通过替换它。

用不太严谨的“人类”表现来描述经验结果也会表现出对当前能力的错误认识。以[21]中报道的“皮肤病专家级的皮肤癌分类器”为例，将其与皮肤科医生比较，会掩盖皮肤癌的机器分类与皮肤科医生的诊断是根本不同的任务的事实。真实情况下，皮肤科医生会遇到各种各样的情况，尽管有不可预测的变化，但他们必须完成工作。但是，机器学习分类器仅在假设的i.i.d（样本互相独立并且满足同一分布）测试集上实现了低误差。

相比之下，[29]中的人类表现则明确声称是在ImageNet分类任务（而不是更广泛的对象识别）中表现得更出色。即使在这种情况下，一篇严谨的论文（在许多不那么谨慎的[21,57,75]中）也不足以扭转公共话语风向而使其重回正轨。流行文章继续将现代图像分类器描述为“超越人类能力并有效地证明更多的数据将导致更好的决策”[23]，尽管有证据表明这些关联依赖的是虚假的相关性，例如：将“穿红衣服的亚洲人”错误分类为乒乓球[73]。

深度学习的论文不是唯一犯过这一类错误的; 滥用语言困扰着ML的许多子领域。 [49]讨论了最近关于ML公平性的文献如何经常过多地使用从复杂的法律学说中借用的术语，例如“不同的影响”，来命名表述统计平等概念的简单方程。这导致了一类文献，其中“公平”，“机会”和“歧视”这些词常用来表示简单预测模型的统计量，这混淆了忽视差异的研究人员，以及让政策制定者误解了将道德需求纳入ML的难易程度。

技术术语重载

第二种滥用途径包括采用具有精确技术含义的术语，并以不精确或相互矛盾的方式使用它。例如“解卷积(deconvolution)”，它严格描述了数学上逆转卷积的过程，但现在在深度学习文献中，它用于指代自动编码器和生成对抗网络中常见的转置卷积（也称为向上卷积）。这个术语首先出现在[79]深入学习中，它确实解决了反卷积问题，但后来被过度放大为指代任何使用上卷积的神经架构[78,50]。

这种术语的过载会造成持久的混乱。涉及反卷积的新机器学习论文可能是（i）调用其数学上的原始含义，（ii）描述上卷积，或（iii）试图解决混淆，如[28]中所述，其中被尴尬地用“上卷积（解卷积）”来描述这一过程。

我们另举一例，生成模型（generative models）传统上是输入为分布p（x）或联合分布p（x，y）的模型。相反，判别模型（discriminative models）是在给定输入标签的条件分布p（y | x）。

然而，在近期的研究工作中，“生成模型”被不太精确地用于指代能产生逼真结构化数据的任何模型。从表面上看，这似乎与p（x）定义一致，但它掩盖了几个缺点——例如，GAN（生成对抗网络）或VAE（差分网络）无法执行条件推理（例如从p（x2 | x1）采样，其中x1和x2是两个不同的输入特征）。

进一步解析这个术语，一些判别模型现在被误认为是生成模型因为它们能产出结构化的数据[76]，这是我们（ZL）在[47]中犯的错误。为了寻求解决困惑并提供可追溯的历史背景，[58]区分正统的和隐含的生成模型。

再来看看批量标准化，[33]将协变量偏移描述为模型的输入分布的变化。实际上，协变量偏移是指特定类型的偏移，即尽管输入分布p（x）可能会改变，但标记函数p（y | x）不会变[27]。此外，由于[33]的影响，谷歌学者搜索引擎将批量标准化列为搜索“协变量偏移”时的第一个返回参考。

误用语言的后果之一是（与生成模型一样），我们把一些未解决的问题重新定义成更简单的任务，以此隐瞒迟缓的进展。这通常通过拟人命名与暗示性定义相结合。语言理解和阅读理解，曾经是AI的巨大挑战，现在具体指向在特定数据集上做出准确的预测[31]。

“行李箱词”

最后，我们来讨论ML机器学习论文中过度使用“行李箱词”的情况。该词由Minsky在2007年出版的“情感机器”[56]一书中首次使用，指的是一个词汇集多种意义的现象。

Minsky描述了诸如意识，思考，注意力，情感和感觉一类，不只是由单一的原因或起源引起的心理过程。ML中的许多术语都属于这一类。例如，[46]指出，可解释性没有普遍认同的含义，并且经常引用不相交的方法和需求。因此，即使看起来彼此对话的论文也可能是不同的概念。

另举一例，“泛化”具有特定的技术含义（从训练集到测试集的泛化）和一种更通俗的含义，接近于转移（从一个群体推广到另一个群体）或外部有效性（从实验环境推广到现实世界）[67]。将这些概念混为一谈会高估当前系统的能力。

暗示定义和重载术语会导致新的行李箱词。在公平文献中，法律，哲学和统计语言经常被重载，类似“偏见”这样的术语会变成行李箱词而迫使我们将其拆解[17]。

在常见的演讲和鼓舞人心的话语中，行李箱词可以起到有效作用。有时行李箱词反映了将各种含义统一起来的总体概念。例如，“人工智能”可能是一个学术部门的理想名称。另一方面，在技术论证中使用行李箱词可能会导致混淆。例如，[6]写了一个涉及术语“智能”和“优化能力”的等式（方框4），隐含地假设这些行李箱词可以用一维标量来量化。

关于这些趋势背后的原因的一些思考

上述模式是否代表趋势，如果是，那么潜在原因是什么？我们推测这些模式正在扩大，并认为可以归因为几个可能的因素：面对进步的自满情绪，社区的迅速扩张，审查人员团体的人数有限，以及奖学金激励与短期成功措施的不一致。

面对进步的自满情绪

机器学习领域的快速进展有时会造成这样一种态度，即强有力的实证结果可以作为掩盖弱论点的借口。获得有效结果的作者可能会被许可插入任意缺乏论据支持的故事，只要存在能推导结果的因素（见§3.1），而省略那些旨在解开这些因素的实验（§3.2），采用夸大的术语（§3.4），或滥用数学公式（§3.3）。

与此同时，审查过程的单一性质可能会使审稿人感到他们别无选择，只能接受获得了强大的实证定量结果的论文。实际上，即使论文被拒绝，也不能保证在下一个阶段中这些缺陷会被注意或修正，因此审稿人可能会认为，接受有缺陷的论文是最好的选择了。

“成长”的烦恼

自2012年左右以来，由于深度学习表现出色，机器学习愈发受欢迎，该领域也发展迅速。我们将行业的快速扩张视为一种积极的发展信号，但它同时也存在一些副作用。

为了保护资历尚浅的作者们，我们倾向于引用我们自己的以及著名研究者的文章。然而，新研究者们可能会更容易受此模式影响。例如，对术语并不了解的作者们更容易错用或重新定义文字。另一方面，有经验的研究者同样会落入此陷阱。

快速增长还会从两方面减少文章审批者的数量——被提交文章的数量相对审批者的数量增加，同时富有经验的审批者的比例降低。经验不足的审批者更可能追求结构上的创新，而被虚假的定理所蒙蔽双眼，忽视严重却难以发觉的问题，如语言不当使用。这会助长甚至导致上述的几大趋势。同时，富有经验却负担过重的审批者可能会转为“打钩模式”，即他们倾向于更加八股文的文章，否决有创造力或聪明有远见的作品——这些作品与人们熟知的论文模板往往相去甚远。此外，过度工作的审批者可能并没有时间去解决甚至注意提交报告中所有的问题。

错位的激励

为论文作者们提供糟糕激励的并不只有审批者。随着机器学习逐渐引起媒体的关注，以及机器学习初创企业变得流行与常见，媒体（“他们会报道什么？”）与投资者（“他们会投资什么？”）在一定程度上也提供了激励。媒体激励了部分上述趋势。对机器学习算法的拟人化描述助长了新闻曝光度。

以本篇论文为例[55]，它将自动编码器拟人化为“模拟大脑”。稍有一点人类水平的表现就会被新闻夸大，比如[52]将一个使用深度学习为图像起标题的系统描述为“理解水平近乎人类”。投资者们也非常欢迎人工智能研究，他们经常仅仅基于一篇论文就决定投资某个初创企业。

根据我们（ZL）与投资者合作的经验，他们经常被那些研究方向被媒体报道过的初创企业所吸引——金钱激励与媒体关注度紧紧相连。我们注意到，最近对聊天机器人初创企业的热潮与学术与媒体上对话系统和强化学习拟人化同时出现。尽管确实很难知道，到底是奖学金的不足引起了投资者的兴趣，还是正好相反。

讨论

不少人可能会建议，在本领域正火热发展之时不要进行干预：你不该和成功过不去！我们将这样回击这些反对的声音。首先，上面论述的这些文献是机器学习最近的成功的结果，而非其原因。

事实上，许多指引深度学习成功之路的文献都是对训练深度网络原则进行的非常仔细的实证研究。这其中包括：随机参数搜索比序列性参数搜索更加有优势[5]，不同激活函数的行为特征[34, 25]，以及对无监督学习预训练的理解[20]。

第二，存在缺陷的学术研究已经负面影响到了研究界以及更广泛的社会认知。我们在第三部分内看到了许多例子。未被证实的断言被引用上千次，所谓变型改进的被简单基准推翻，看似测试高水平语义推理的数据实际上仅仅测试简单的语法通顺度，还有大量术语的不当使用使学术对话变得令人困惑。最后一个问题还影响研究结果对公众的发布。

例如，欧盟议会通过了一项报告，考虑当“机器变得/被制造成具有自我意识”时，进行法规约束[16]。尽管机器学习研究者们无需对所有对其研究的错误理解负责，拟人化权威同行审核的文章确实似乎该负起一部分责任。

我们相信，更严肃精确的表达，科学与理论对科学进步与面向大众的科普都非常关键。此外，作为在医疗，法律与无人驾驶等关键领域应用机器学习的从业者，对于机器学习系统能力与不足的精准认识将帮助我们负责任地应用机器学习。我们将在文章最后一个部分讨论一些反驳观点并提供一些背景知识。

反面因素的考虑

对于前述建议，我们也考虑了一些反面因素。一些阅读了本文草稿的读者指出，随机梯度下降通常比梯度下降收敛更快——也就是说，无视我们对于撰写一篇“更干净”的文章的建议，可能一个噪音更多但速度更快的过程可以帮助加快研究的进程。

例如ImageNet分类的那篇突破性文章[39]提出了数个方法，并没有进行消融学习。后来其中一些因素被认定为并非必要。然而，在实验结果如此重要并且计算成本非常高昂的时候，可能等待排除所有其它因素完全完成就可能不太划算。

另一个相关的顾虑是，高标准可能阻碍原创性观点的发表。这样的观点一般非同寻常并且非常冒险。在其他领域，比如经济学，高标准导致文章发表周期非常冗长，一篇文章可能会经过数年才能够正式发表。校对耗时过长，会占用原本可以花在新研究上的时间与资源。

最后，专业化可能会有所帮助：那些提出新概念与想法或建立新系统的研究者并不需要与那些仔细校勘提炼知识的研究者完全相同。

我们认为这些考虑非常实在，有时上述标准确实过于苛求。然而，在许多情况下他们都能够被直截了当地实施，仅需要多花几天在实验与仔细写作上。

并且，我们提出这些观点，不是让他们成为决不能被违背的守则，而是想启发大家——如果有些观点不违背这些标准就无法被分享，那我们更宁愿大家暂时无视此标准，分享观点。此外，我们几乎总是能发现，试图遵守这些标准总是非常值得。简而言之，我们并不相信研究界已经在增长-质量前沿上达到了帕累托最优状态。

历史上的先例

本问题并不仅存在于机器学习界，也并不仅存在于现在。他们反映了学术界一直以来周期性反复出现的问题。1964年，物理学家John R. Platt在其一篇关于强推理的论文[62]中讨论了类似的问题。他认为坚持某种用实证标准衡量致使了分子生物学界和高能物理相对于其他科学学科的快速发展。

在人工智能领域也有类似的讨论。正如在第一部分所述，在1976年，Drew McDermott在[53]中从数个方面批评了一个人工智能社团（基本上就是机器学习的前身），包括定义具有暗示性以及没有将猜测与技术声明分离开。在1988年，Paul Cohen与Adele Howe在[13]中强调了一个人工智能团体。该团体当时“几乎从不公开对其提出的算法的表现评估”，而仅仅是描述了一下系统。

他们建议建立一个有意义的量化过程的评估标准，并且建议分析“为什么它有用？”，“在什么情况下它会失效？”以及“该设计被证明可靠了么？”等一类直至今天仍然有用的问题。最后，在2009年，Armstrong及其共同作者们在[2]中讨论了信息查询研究的实证严谨度。

他们发现文章正倾向于将自己的研究结果与同样糟糕的标准进行对比，得到一系列压根就不会得到有意义的结果的所谓改进方法。

在其他领域，学术研究成果未经检查的减少已经引起了危机。2015年的一项著名研究[14]认为，心理学界一大部分发现并不能被重复实验得到相同结果。历史上发生过数次这样的事情，激情与未加约束的学术研究使得整个专业都误入歧途。例如，在发现X光后，一个研究N光的相关学科突然出现[61]，最终被揭穿其虚假的面具。

结束语

读者们也许会指出：这些问题其实是可以自我纠正的。没错，我们认同这一观点。然而，唯有通过对学术标准的不断讨论，机器学习研究圈才能“自我纠正”这一问题。这也正是本文希望作出的贡献。