AI界的State of the Art都在这里了

2018 年 12 月 10 日 机器之心

机器之心编辑

参与：刘晓坤、思源

近日，来自 MIT 和 UNAM 的四名学生构建了一个收录了最优算法的网站，他们按领域、任务和数据集采集了最先进水平（SOTA）的论文，并为不同的任务提供了不同的性能度量标准。如果我们需要处理特定数据集或任务，这能大大减少搜索论文的时间，同时还能快速了解当前最优的解决方案。

项目地址：https://www.stateoftheart.ai/

正如这些学生所言：「我们希望将所有资源都高效地分配到如今迅猛发展的 AI 和 ML 领域。」因此这个项目可以更高效地利用手中的资源，包括将时间、精力和计算资源都投入到真正的当前最优方法和结果上。

State Of The Art

尽管目前已经有很多诸如 arxiv-sanity、GroundAI、Deep Learning Monitor、reddit、Medium 等等能帮助我们紧跟 AI 和 ML 领域最新发展的网站。作者认为目前我们尚未拥有易于查询的项目来检索最先进的、可量化的任务结果。遵循这个想法，作者的目标是建立这个工具，不仅对研究人员有用，对任何想要咨询或有助于推动该领域的人都有用。

基于这样的目标，作者选取了 State Of The Art 作为衡量标准。很多读者都很熟悉当前最优结果（SOTA），现在的新研究很多都尝试给出更好的 SOTA 结果。而大部分新的最优结果主要关注修正部分结构或给出一些技巧，我们很难判断实际上这样的修正到底重不重要。为此，作者认为一个能真正包含 SOTA 结果的项目是非常有价值的，因此也就有了 stateoftheart.ai。

数据来源与度量

数据的主要来源是可以上传其领域相关结果的机器学习社区。社区的开发者在阅读（大量）文章后，会知道哪些论文是真正重要的、哪些论文的 SOTA 结果是可以复现的。此外，爬取网页和几个现有数据集和网站的数据同样可以为项目提供数据。最后，数据的另一部分来自电子前沿基金会的《Measuring the Progress of AI Research》报告。

报告地址：https://www.eff.org/ai/metrics

当然，衡量 AI 领域进展的许多方面既不容易量化，也不能以表格形式展示。此外，任务的分类在某种程度上必然是有任意性的和不完整的。但是，在许多情况下，这样的工具非常有用，并且始终可作为非全面的初始参考。该项目已经覆盖了计算机视觉、AI 游戏、自然语言处理、网络图和知识库、程序归纳和程序合成、音频处理，以及时间序列处理等领域。

项目示例

开放平台并使其简单无缝，每个人都可以做出贡献是至关重要的。任何人只要注册后就可以使用「Upload Result」按钮上传新任务、指标或结果。目前，该网站支持通过论文的 DOI / URL 来上传结果。这里主要展示了图像分类与机器翻译的 SOTA 结果，项目会提供对应原论文与具体数据集上的结果。此外，作者还将根据用户反馈调整平台以适应更多用例场景。

目前该网站不支持搜索引擎，但可以通过多级分类按钮进行检索。检索共分为三个级别，领域、任务和数据集。只要依次选中想要的检索关键词，就可以在下方的表格中查到定量的 state of the art 数值结果。如下图所示，依次选中「计算机视觉」、「图像分类」和「ImageNet」后，就能看到当前最佳的 ImageNet 分类器的相关信息。

从表格中分别能查询到相关论文、作者、算法、论文接收会议和性能指标，以及论文的链接。

从这里的数据来看，作者收集了多种分类指标，包括准确率、误差率、top-1 准确率和 top-5 准确率，并分离地进行排序。

按照 top-1 准确率和 top-5 准确率指标，最佳的 ImageNet 分类器应该是 2018 年的《Learning Transferable Architectures for Scalable Image Recognition》这篇论文中提出的 NASNET-A(6) 架构，其 top-1 准确率为 82.7%，top-5 准确率为 96.2%。

此外，算法描述也能提供一个简要的理解。例如在机器翻译中的 NIST05 (Chinese-English) 数据集上，当前最优的论文可以视为结合了 Transformer 与 CSGAN。算法简述与其所投的的大会能让我们在最短的时间内对该论文有一个直观了解：