MIT 开源 ATM：一种分布式、协作式、可扩展的自动化机器学习系统；比数据科学家快100倍（附论文）

2017 年 12 月 20 日 云头条

作者：MIT信息和决策系统实验室

一种新的自动化机器学习系统执行任务时的表现不亚于人类，运行起来要快100倍。

为了解决复杂的问题，数据科学家必须引导原始数据完成一系列步骤，每个步骤都需要众多人类驱动的决定。这个过程的最后一步：确定一种建模技术至关重要。

无论是作为一门学科，还是作为一种应用，数据科学最近都取得了巨大发展，这一方面归因于数据科学拥有解决问题的强大能力：它可以预测信用卡交易何时是欺诈性交易，帮助企业主搞清楚何时派发优惠券以便最大限度地调动客户积极性，或者通过预测学生何时将要辍学，以便教育部门及时干预。

不过要获得这些数据驱动的解决方案，数据科学家必须引导原始数据完成一系列复杂的步骤，每个步骤都需要众多人类驱动的决策。这个过程的最后一步：确定一种建模技术至关重要。有数百种技术可供选择：从神经网络到支持向量机，不一而足，而选择最佳技术可能意味着收入增加数百万美元，或者关系到发现关键医疗设备的缺陷还是疏忽缺陷。

在上周的IEEE国际大数据会议上，麻省理工学院（MIT）和密歇根州立大学的研究人员发表了一篇题为《ATM：一种分布式、协作式、可扩展的自动化机器学习系统》的论文（见文末）。他们介绍了一种新系统，新系统可以使模型选择这一步实现自动化，甚至提升人类的表现。该系统名为自动调优模型（ATM），它充分利用基于云的计算资源，快速搜寻建模方案，并找到最适合某个特定问题的建模技术。它还调整优化模型的超参数（优化算法的一种方法），这有望大幅提升性能。ATM现在是一种开源平台，可供企业使用。

为了比较ATM与人类，研究人员将该系统与使用协作式众包平台openml.org的用户进行了一番测试。数据科学家们经常在这个平台上一起解决问题，通过完善彼此的工作来找到最佳解决方案。ATM分析了来自该平台的47个数据集，在30%的时间里获得的解决方案比人类获得的更胜一筹。就算表现并不比人类出色，也非常相近；重要的是，它运行起来比人类快得多。openml.org用户平均需要100天才能获得一种近乎完美的解决方案，而ATM不到一天就能得到与之媲美的解决方案。

助力数据科学家

数据科学家们常常为“假设”（what-ifs）所困扰，这种速度和准确性正是他们迫切需要的。密歇根州立大学的计算机科学与工程系教授、该论文的高级作者阿伦•罗斯（Arun Ross）说：“有太多的建模技术可供选择。如果数据科学家选择支持向量机作为建模技术，使用神经网络还是不同的模型这个问题会导致更高的准确性始终在他的脑海里萦绕。”

在过去的几年，模型选择/调优这个问题已成为机器学习的一个全新子领域：Auto-ML关注的焦点。Auto-ML解决方案旨在为数据科学家提供最适合某项特定机器学习任务的模型。就是有一个问题：彼此竞争的Auto-ML方法带来了不同的结果，他们的方法常常不透明。换句话说，业界在力求解决选择问题，带来了另一个更为复杂的问题。麻省理工学院信息和决策系统实验室（LIDS）的首席研究科学家、该论文的高级作者卡利安•维拉马沙纳尼（Kalyan Veeramachaneni）说：“‘假设’问题依然存在。只不过变成了‘如果我们使用了不同的Auto-ML方法，那会怎样？’”

ATM系统的工作方式不一样，它使用按需云计算，在短时间内生成和比较成百上千个模型。为了搜寻建模技术，研究人员使用了一种智能选择机制。该系统并行测试数千个模型，评估每个模型，将更多的计算资源分配给那些大有希望的建模技术。糟糕的方案半途丢弃，最佳方案跑到最上面。

ATM不是盲目地选择“最佳”方案，然后提供给用户，而是显示结果的分布状况，以便并排比较不同的方法。罗斯表示，这样一来，ATM加快了测试和比较不同建模方法的过程，又不自动摈弃人类直觉，人类直觉仍是数据科学过程的一个重要组成部分。

社区驱动的开源方法

通过简化模型选择这个过程，维拉马沙纳尼及其团队旨在让数据科学家得以处理整个环节中更有影响力的部分。维拉马沙纳尼说：“我们希望我们的系统可以让专家们腾出更多的时间来深入了解数据、问题阐述和特征工程。”

为此，研究人员开源ATM（https://hdi-dai.lids.mit.edu/projects/atm/），好让它可供有意向使用的企业使用。他们还列出了规定，好让研究人员将新的模型选择技术整合进来，因而不断改善平台。ATM可以在单台机器、本地计算集群或云端按需集群上运行，可以同时处理多个数据集和多个用户。

维拉马沙纳尼说：“一个中小规模的数据科学团队只需要经历几个步骤，就可以上手、开始构建模型。根本不存在‘假设’这个问题。”

论文内容：