大规模学习该如何权衡得失?解读NeurIPS 2018时间检验奖获奖论文

2018 年 12 月 16 日 AI前线

作者|谷歌 AI 苏黎世研究中心
           项目经理 Anna Ukhanova
译者|姚佳灵
编辑|Debra
AI 前线导读:机器学习进展飞速,有时甚至觉得,超过 2 年的想法或算法就过时了,或者就被其他更好的东西所取代。然而有时候,有些旧想法,即使科学界的大部分人已经远离它们,它们仍然很重要。这通常是个上下文的问题:一个在特定的上下文中看起来已经穷途末路的想法也许在另一个上下文中变得极其成功。在深度学习的特定情况下,可用数据和计算能力的增长重新引起了人们对该领域的兴趣,并显著地影响了研究方向。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

NIPS 2007 年的论文 《大规模学习的权衡(The Trade-Off of Large Scale Learning)》 (https://leon.bottou.org/publications/pdf/nips-2007.pdf)是由 Léon Bottou(当时在 NEC 实验室 工作,现在在Facebook AI研究中心 工作)和 Olivier Bousquet(就职于 苏黎世谷歌 AI研究中心 https://ai.google/research/join-us/zurich)共同完成的,该论文是这种现象的绝佳实例。作为 NeurIPS 2018 经典论文奖的获奖论文,这项开创性的工作研究了机器学习中的数据和计算之间的相互作用。研究结果显示,即使受到计算能力的限制,仍然可以使用大型数据集,在多个独立训练样本上进行少量的计算比在数据的子集上进行大量的计算更有效率。这证明了 随机梯度下降法 这个旧算法的强大,如今,几乎所有的深度学习应用都使用了该算法。本文是 AI 前线第 62 篇论文导读,我们将带大家一起回顾这篇经典论文。

优化和扩展挑战

很多机器学习算法都可以看成是以下两个要素的组合:

  • 模型:一个可以用于拟合数据的函数集合。

  • 优化算法:指明如何在该函数集合中找到最佳函数。

回望 90 年代,机器学习中使用的数据集比如今使用的要小很多,尽管人工神经网络已经取得一些成功,但它们仍然被认为难以训练。在 2000 年初,随着“核机器(Kernel Machines https://en.wikipedia.org/wiki/Kernel_method)”(特别是 SVM https://en.wikipedia.org/wiki/Support_vector_machine)的引入,神经网络逐渐落伍。同时,大家的注意力从一直用于训练神经网络的优化算法(随机梯度下降法)转移到了用于核机器的那些算法上(quadratic programming,二次规划)。一个重要的区别是,在前一种情况下,一次使用一个训练样本执行梯度步骤(这被称为“随机”),而在后一种情况下,每次迭代时都会用到所有训练样本(这被称为“批处理”)。

随着训练集规模的增长,优化算法处理大量数据的效率成为瓶颈。比如,在二次规划的情况下,运行时间至少是样本数量的二次方。换句话说,如果训练集的规模翻倍,那么训练时间至少要增加 4 倍。因此,为了把这些算法扩展到更大的训练集,人们花费了大量的精力(请参看 大规模核机器 https://mitpress.mit.edu/books/large-scale-kernel-machines)。

具有神经网络训练经验的人都知道,随机梯度下降法相对更容易扩展到大型数据集,但是,遗憾的是,它的收敛速度非常慢(要进行大量迭代才能达到与批处理算法的精度),因此,还不清楚这是否是扩展问题的解决方案。

随机算法扩展性更好

事实上,在机器学习的背景中,优化成本函数所需的迭代次数不是主要问题:把模型优化至完美是没有意义的,因为基本上都会“过拟合”训练数据。那么,为什么不减少优化模型所需的计算量,而把精力投入到处理更多的数据呢?

Léon 和 Olivier 的工作是对该现象的正式研究:他们考虑访问大量的数据,并假设限制因素是计算,研究结果表明,最好对每个独立训练样本进行最少量的计算(因而可以处理更多样本),而不是对较少量的数据进行大量的计算。

在这个过程中,他们还证明,在各种可能的优化算法中,随机梯度下降法是最佳算法。这已被很多实验所证实,并引起了人们对在线优化算法的兴趣。如今,在线优化算法已广泛应用在机器学习中。

未解之谜

在随后的几年中,随机梯度下降法在凸优化和非凸优化(特别适合于深度学习)场景中发展出了许多变体。现在最常见的变体是所谓的“小批量(mini-batch)”随机梯度下降法,每次迭代只考虑少量的训练样本(大概是 10 到 100 个之间),在训练集上执行多遍,并利用一些聪明的技巧来适当地扩展梯度。大多数机器学习库提供这类算法的默认实现,它被认为是深度学习的支柱之一。

尽管该分析为理解这个算法的特性提供了坚实的基础,但是,深度学习令人难忘甚至有时令人惊讶的成功不断地向科学界提出更多的问题。具体来说,尽管该算法在泛化深度网络特性中的作用已经被反复证明,但我们仍然未能充分理解。这意味着,还有很多有趣的问题等待我们探索,这些问题有助于我们更好地理解目前在使用的算法,并在未来开发出更高效的算法。

10 年前,Léon 和 Olivier 在合作中提出的观点显著推动了现如今已成为机器学习系统主力、造福我们日常生活的算法的发展。我们衷心祝贺两位作者获得这一当之无愧的奖项。

原文链接:

https://ai.googleblog.com/2018/12/the-neurips-2018-test-of-time-award.html

活动推荐

说到人工智能的应用,你还只停留在围棋和自动驾驶?现阶段的人工智能是否在前一代成果的基础上实现突围?12月20日上午,AICon 人工智能与机器学习解决方案专场,将由腾讯技术大咖带队,从智能问答算法原理、图数据库引擎、高效文本标注工具的实现等维度进行研讨与展示,与大家聊聊AI新探索与新应用。戳阅读原文,立刻报名!



如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!

登录查看更多
1

相关内容

随机梯度下降法(通常在SGD中被缩短),也称为增量梯度下降法,是梯度下降优化方法的随机近似,用于最小化写为可微函数之和的目标函数。换句话说,SGD试图找到 迭代的最小值或最大值。
专知会员服务
19+阅读 · 2020年3月29日
专知会员服务
44+阅读 · 2020年3月6日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
35+阅读 · 2020年2月27日
ICLR 2019论文解读:量化神经网络
机器之心
9+阅读 · 2019年6月13日
学界 | 顶会见闻系列:NeurIPS 2018 论文精选
AI科技评论
6+阅读 · 2018年12月13日
IBM长文解读人工智能、机器学习和认知计算
人工智能学家
5+阅读 · 2018年8月26日
AutoML 和神经架构搜索初探
极市平台
9+阅读 · 2018年8月8日
中国AI论文普遍水?机器学习教父Tom Mitchell的回答是……
量化投资与机器学习
3+阅读 · 2018年6月27日
视频 | 如何用 AI 预测股价?
AI研习社
5+阅读 · 2017年6月30日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
26+阅读 · 2019年3月5日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关资讯
ICLR 2019论文解读:量化神经网络
机器之心
9+阅读 · 2019年6月13日
学界 | 顶会见闻系列:NeurIPS 2018 论文精选
AI科技评论
6+阅读 · 2018年12月13日
IBM长文解读人工智能、机器学习和认知计算
人工智能学家
5+阅读 · 2018年8月26日
AutoML 和神经架构搜索初探
极市平台
9+阅读 · 2018年8月8日
中国AI论文普遍水?机器学习教父Tom Mitchell的回答是……
量化投资与机器学习
3+阅读 · 2018年6月27日
视频 | 如何用 AI 预测股价?
AI研习社
5+阅读 · 2017年6月30日
相关论文
Top
微信扫码咨询专知VIP会员