深度神经网络最近展示了其解决复杂任务的惊人能力。如今的模型使用功能强大的GPU卡在数百万个示例上进行训练,能够可靠地对图像进行注释、翻译文本、理解口语或玩国际象棋或围棋等战略性游戏。此外,深度学习也将成为未来许多技术的组成部分,例如自动驾驶、物联网(IoT)或5G网络。特别是随着物联网的出现,智能设备的数量在过去几年里迅速增长。这些设备中有许多都配备了传感器,使它们能够以前所未有的规模收集和处理数据。这为深度学习方法提供了独特的机会。

然而,这些新的应用程序带有许多附加的约束和要求,这些约束和要求限制了当前模型的开箱即用。

1. 嵌入式设备、物联网设备和智能手机的内存和存储容量有限,能源资源有限. 像VGG-16这样的深度神经网络需要超过500 MB的内存来存储参数,执行单次向前传递需要15 gb的操作。很明显,这些模型的当前(未压缩的)形式不能在设备上使用。

2. 训练数据通常分布在设备上,由于隐私问题或有限的资源(带宽),无法简单地在中央服务器上收集. 由于只有少量数据点的模型的局部训练通常不太有希望,因此需要新的协作训练方案来将深度学习的能力引入这些分布式应用程序。

本教程将讨论最近提出的解决这两个问题的技术。我们将首先简要介绍深度学习,它的当前使用和今天的模型在计算和内存复杂性、能源效率和分布式环境方面的局限性。我们将强调解决这些问题的实际需要,并讨论实现这一目标的最新进展,包括ITU ML5G和MPEG AHG CNNMCD正在开展的标准化活动。

然后我们将进入神经网络压缩的话题。我们将首先简要介绍源编码和信息论的基本概念,包括速率失真理论、量化、熵编码和最小描述长度原则。这些概念需要形式化的神经网络压缩问题。然后我们将继续讨论压缩DNNs的具体技术。为此,我们将区分压缩过程的不同步骤,即剪枝和稀疏化、量化和熵编码。前两步是有损的,而最后一步是无损的。由于缩小尺寸并不是神经网络压缩的唯一目标(例如,快速推理、能源效率是其他目标),我们还将讨论有效推理的方法,包括最近提出的神经网络格式。最后,我们将介绍一个用例,即设备上的语音识别,演示如何在实际应用中使用压缩方法。

最后我们将介绍分布式学习的最新发展。我们提出了不同的分布式训练场景,并根据它们的通信特性进行了比较。接下来,我们将重点讨论联邦学习。我们列举了联邦学习中存在的挑战——通信效率、数据异构性、隐私、个性化、健壮性——并提出了解决这些挑战的方法。我们特别关注为减少分布式学习中的通信开销而提出的技术,并讨论集群化FL,这是一种与模型无关的分布式多任务优化的新方法。这里我们将强调本教程第一部分中介绍的概念的相似性,即稀疏化、量化和编码。

目录:

  1. 介绍
  • 目前使用的深度学习
  • 现有模型和新应用的实际局限性
  • 研究、工业和标准化方面的最新发展
  1. 神经网络压缩
  • 背景:资料编码、信息论
  • 修剪和稀疏化方法
  • 量化和定点推理
  • 神经网络格式
  • 用例研究:设备上的语音识别

3.问题 4. 休息时间 5. 分布式学习

  • 背景:SGD,学习理论
  • 联邦和分布式学习的基本概念
  • 减少通信开销和连接到NN压缩
  • 联邦学习和差异隐私
  • 集群联合学习
  1. 问题
成为VIP会员查看完整内容
0
58

相关内容

由于硬件资源有限,深度学习模型的训练目标通常是在训练和推理的时间和内存限制下最大化准确性。在这种情况下,我们研究了模型大小的影响,关注于计算受限的NLP任务的Transformer模型:自监督的预训练和高资源机器翻译。我们首先展示了,尽管较小的Transformer模型在每次迭代中执行得更快,但更广、更深入的模型在显著更少的步骤中收敛。此外,这种收敛速度通常超过了使用更大模型的额外计算开销。因此,计算效率最高的训练策略是反直觉地训练非常大的模型,但在少量迭代后停止。

这导致了大型Transformer 模型的训练效率和小型Transformer 模型的推理效率之间的明显权衡。然而,我们表明大模型比小模型在压缩技术(如量化和剪枝)方面更健壮。因此,一个人可以得到最好的两个好处: 重压缩,大模型比轻压缩,小模型获得更高的准确度

https://www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在当前的深度学习范式中,使用更多的计算(例如,增加模型大小、数据集大小或训练步骤)通常会导致更高的模型准确度(brock2018large;raffel2019exploring)。最近自监督预训练的成功进一步论证了这种趋势经模型。因此,计算资源日益成为提高模型准确度的关键制约因素。这个约束导致模型训练的(通常是隐含的)目标是最大化计算效率:如何在固定的硬件和训练时间下达到最高的模型准确度。

最大化计算效率需要重新考虑关于模型训练的常见假设。特别是,有一个典型的隐式假设,即模型必须经过训练直到收敛,这使得较大的模型在有限的计算预算下显得不太可行。我们通过展示以收敛为代价来增加模型大小的机会来挑战这一假设。具体地说,我们表明,训练Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止训练。

在我们的实验中,我们改变了Transformer模型的宽度和深度,并在自监督的预训练(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上训练)和机器翻译(WMT14英语→法语)上评估了它们的训练时间和准确性。对于这些任务,我们首先展示了更大的模型比更小的模型在更少的梯度更新中收敛到更低的验证错误(第3节)。此外,这种收敛速度的增加超过了使用更大模型所带来的额外计算开销——计算效率最高的模型是非常大的,并且远远不能收敛(例如,图2,左)。我们还表明,收敛的加速主要是参数计数的函数,只有模型宽度、深度和批大小的微弱影响。

虽然较大的模型训练速度更快,但它们也增加了推理的计算和内存需求。这种增加的成本在现实应用中尤其成问题,推理成本占训练成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,对于RoBERTa来说,这种明显的权衡可以与压缩相协调:与小型模型相比,大型模型在压缩方面更加健壮(第4节)。因此,使用可比较的推理成本,大型重压缩的模型优于小型轻压缩的模型(例如,图2,右)。

成为VIP会员查看完整内容
0
29

【导读】DeepMind开设了一系列深度学习课程。本次课讲述了深度学习计算机视觉。

继上一讲之后,DeepMind研究科学家Viorica Patraucean介绍了图像分类之外的经典计算机视觉任务(目标检测、语义分割、光流估计),并描述了每种任务的最新模型以及标准基准。她讨论了视频处理任务的类似模型,如动作识别、跟踪和相关挑战。她特别提到了最近提高视频处理效率的工作,包括使用强化学习的元素。接下来,她介绍了单模态和多模态(vision+audio, visio+language)自监督学习的各种设置,在这些设置中,大规模学习是有益的。最后,Viorica讨论了视觉中的开放问题,以及计算机视觉研究在构建智能代理这一更广泛目标中的作用。

成为VIP会员查看完整内容
0
84

人类的视觉系统证明,用极少的样本就可以学习新的类别;人类不需要一百万个样本就能学会区分野外的有毒蘑菇和可食用蘑菇。可以说,这种能力来自于看到了数百万个其他类别,并将学习到的表现形式转化为新的类别。本报告将正式介绍机器学习与热力学之间的联系,以描述迁移学习中学习表征的质量。我们将讨论诸如速率、畸变和分类损失等信息理论泛函如何位于一个凸的,所谓的平衡曲面上。我们规定了在约束条件下穿越该表面的动态过程,例如,一个调制速率和失真以保持分类损失不变的等分类过程。我们将演示这些过程如何完全控制从源数据集到目标数据集的传输,并保证最终模型的性能。

成为VIP会员查看完整内容
0
104

【导读】分布式机器学习Distributed Machine Learning是学术界和工业界关注的焦点。最近来自荷兰的几位研究人员撰写了关于分布式机器学习的综述,共33页pdf和172篇文献,概述了分布式机器学习相对于传统(集中式)机器学习的挑战和机遇,讨论了用于分布式机器学习的技术,并对可用的系统进行了概述,从而全面概述了该领域的最新进展

​论文地址: https://www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07

摘要 在过去的十年里,对人工智能的需求显著增长,而机器学习技术的进步和利用硬件加速的能力推动了这种增长。然而,为了提高预测的质量并使机器学习解决方案在更复杂的应用中可行,需要大量的训练数据。虽然小的机器学习模型可以用少量的数据进行训练,但训练大模型(如神经网络)的输入随着参数的数量呈指数增长。由于处理训练数据的需求已经超过了计算机器计算能力的增长,因此需要将机器学习的工作负载分布到多台机器上,并将集中式的学习任务转换为分布式系统。这些分布式系统提出了新的挑战,首先是训练过程的有效并行化和一致模型的创建。本文概述了分布式机器学习相对于传统(集中式)机器学习的挑战和机遇,讨论了用于分布式机器学习的技术,并对可用的系统进行了概述,从而全面概述了该领域的最新进展。

1. 引言

近年来,新技术的快速发展导致了数据采集的空前增长。机器学习(ML)算法正越来越多地用于分析数据集和构建决策系统,因为问题的复杂性,算法解决方案是不可行的。例如控制自动驾驶汽车[23],识别语音[8],或者预测消费者行为[82]。

在某些情况下,训练模型的长时间运行会引导解决方案设计者使用分布式系统来增加并行性和I/O带宽总量,因为复杂应用程序所需的训练数据很容易达到tb级的[29]。在其他情况下,当数据本身就是分布式的,或者数据太大而不能存储在一台机器上时,集中式解决方案甚至都不是一个选项。例如,大型企业对存储在不同位置的[19]的数据进行事务处理,或者对大到无法移动和集中的天文数据进行事务处理[125]。

为了使这些类型的数据集可作为机器学习问题的训练数据,必须选择和实现能够并行计算、数据分布和故障恢复能力的算法。在这一领域进行了丰富多样的研究生态系统,我们将在本文中对其进行分类和讨论。与之前关于分布式机器学习([120][124])或相关领域的调查([153][87][122][171][144])相比,我们对该问题应用了一个整体的观点,并从分布式系统的角度讨论了最先进的机器学习的实践方面。

第2节深入讨论了机器学习的系统挑战,以及如何采用高性能计算(HPC)的思想来加速和提高可扩展性。第3节描述了分布式机器学习的参考体系结构,涵盖了从算法到网络通信模式的整个堆栈,这些模式可用于在各个节点之间交换状态。第4节介绍了最广泛使用的系统和库的生态系统及其底层设计。最后,第5节讨论了分布式机器学习的主要挑战

2. 机器学习——高性能计算的挑战?

近年来,机器学习技术在越来越复杂的应用中得到了广泛应用。虽然出现了各种相互竞争的方法和算法,但所使用的数据表示在结构上惊人地相似。机器学习工作负载中的大多数计算都是关于向量、矩阵或张量的基本转换——这是线性代数中众所周知的问题。优化这些操作的需求是高性能计算社区数十年来一个非常活跃的研究领域。因此,一些来自HPC社区的技术和库(如BLAS[89]或MPI[62])已经被机器学习社区成功地采用并集成到系统中。与此同时,HPC社区已经发现机器学习是一种新兴的高价值工作负载,并开始将HPC方法应用于它们。Coates等人,[38]能够在短短三天内,在他们的商用现货高性能计算(COTS HPC)系统上训练出一个10亿个参数网络。You等人[166]在Intel的Knights Landing(一种为高性能计算应用而设计的芯片)上优化了神经网络的训练。Kurth等人[84]证明了像提取天气模式这样的深度学习问题如何在大型并行高性能计算系统上进行优化和快速扩展。Yan等人[163]利用借鉴于HPC的轻量级概要分析等技术对工作负载需求进行建模,解决了在云计算基础设施上调度深度神经网络应用程序的挑战。Li等人[91]研究了深度神经网络在加速器上运行时对硬件错误的弹性特性,加速器通常部署在主要的高性能计算系统中。

与其他大规模计算挑战一样,加速工作负载有两种基本的、互补的方法:向单个机器添加更多资源(垂直扩展或向上扩展)和向系统添加更多节点(水平扩展或向外扩展)。

3. 一个分布式机器学习的参考架构

avatar

图1 机器学习的概述。在训练阶段,利用训练数据和调整超参数对ML模型进行优化。然后利用训练后的模型对输入系统的新数据进行预测。

avatar

图2 分布式机器学习中的并行性。数据并行性在di上训练同一个模型的多个实例!模型并行性将单个模型的并行路径分布到多个节点。

机器学习算法

机器学习算法学习根据数据做出决策或预测。我们根据以下三个特征对当前的ML算法进行了分类:

反馈、在学习过程中给算法的反馈类型

目的、期望的算法最终结果

方法、给出反馈时模型演化的本质

反馈 训练算法需要反馈,这样才能逐步提高模型的质量。反馈有几种不同类型[165]:

包括 监督学习、无监督学习、半监督学习与强化学习

目的 机器学习算法可用于各种各样的目的,如对图像进行分类或预测事件的概率。它们通常用于以下任务[85]: 异常检测、分类、聚类、降维、表示学习、回归

每一个有效的ML算法都需要一种方法来迫使算法根据新的输入数据进行改进,从而提高其准确性。通过算法的学习方式,我们识别出了不同的ML方法组: 演化算法、随机梯度下降、支持向量机、感知器、神经网络、规则机器学习、主题模型、矩阵分解。

avatar

图3所示:基于分布程度的分布式机器学习拓扑

4. 分布式机器学习生态系统

avatar

图4所示。分布式机器学习生态系统。通用分布式框架和单机ML系统和库都在向分布式机器学习靠拢。云是ML的一种新的交付模型。

5 结论和当前的挑战

分布式机器学习是一个蓬勃发展的生态系统,它在体系结构、算法、性能和效率方面都有各种各样的解决方案。为了使分布式机器学习在第一时间成为可行的,必须克服一些基本的挑战,例如,建立一种机制,使数据处理并行化,同时将结果组合成一个单一的一致模型。现在有工业级系统,针对日益增长的欲望与机器学习解决更复杂的问题,分布式机器学习越来越普遍和单机解决方案例外,类似于数据处理一般发展在过去的十年。然而,对于分布式机器学习的长期成功来说,仍然存在许多挑战:性能、容错、隐私、可移植性等。

成为VIP会员查看完整内容
A Survey on Distributed Machine Learning.pdf
0
57

题目: A Survey on Distributed Machine Learning

简介: 在过去十年中,对人工智能的需求已显着增长,并且这种增长得益于机器学习技术的进步以及利用硬件加速的能力,但是,为了提高预测质量并在复杂的应用程序中提供可行的机器学习解决方案,需要大量的训练数据。尽管小型机器学习模型可以使用一定数量的数据进行训练,但用于训练较大模型(例如神经网络)的输入与参数数量成指数增长。由于处理训练数据的需求已经超过了计算机器的计算能力的增长,因此急需在多个机器之间分配机器学习工作量,并将集中式的精力分配到分配的系统上。这些分布式系统提出了新的挑战,最重要的是训练过程的科学并行化和相关模型的创建。本文通过概述传统的(集中的)机器学习方法,探讨了分布式机器学习的挑战和机遇,从而对当前的最新技术进行了广泛的概述,并对现有的技术进行研究。

成为VIP会员查看完整内容
0
67

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷积神经网络(CNNs)最近在许多视觉识别任务中取得了巨大的成功。然而,现有的深度神经网络模型在计算上是昂贵的和内存密集型的,这阻碍了它们在低内存资源的设备或有严格时间延迟要求的应用程序中的部署。因此,在不显著降低模型性能的情况下,在深度网络中进行模型压缩和加速是一种自然的思路。在过去几年中,这方面取得了巨大的进展。本文综述了近年来发展起来的压缩和加速CNNs模型的先进技术。这些技术大致分为四种方案: 参数剪枝和共享、低秩因子分解、传输/紧凑卷积过滤器和知识蒸馏。首先介绍参数修剪和共享的方法,然后介绍其他技术。对于每种方案,我们都提供了关于性能、相关应用程序、优点和缺点等方面的详细分析。然后我们将讨论一些最近比较成功的方法,例如,动态容量网络和随机深度网络。然后,我们调查评估矩阵、用于评估模型性能的主要数据集和最近的基准测试工作。最后,对全文进行总结,并对今后的研究方向进行了展望。

成为VIP会员查看完整内容
0
66

近年来,移动设备得到了越来越大的发展,计算能力越来越强,存储空间越来越大。一些计算密集型的机器学习和深度学习任务现在可以在移动设备上运行。为了充分利用移动设备上的资源,保护用户的隐私,提出了移动分布式机器学习的思想。它使用本地硬件资源和本地数据来解决移动设备上的机器学习子问题,只上传计算结果而不是原始数据来帮助全局模型的优化。该体系结构不仅可以减轻服务器的计算和存储负担,而且可以保护用户的敏感信息。另一个好处是带宽的减少,因为各种各样的本地数据现在可以参与培训过程,而不需要上传到服务器。本文对移动分布式机器学习的研究现状进行了综述。我们调查了一些广泛使用的移动分布式机器学习方法。我们还就这一领域的挑战和未来方向进行了深入的讨论。我们相信这项调查能够清晰地展示移动分布式机器学习的概况,并为移动分布式机器学习在实际应用中的应用提供指导。

成为VIP会员查看完整内容
0
20
小贴士
相关VIP内容
专知会员服务
23+阅读 · 2020年7月5日
专知会员服务
104+阅读 · 2020年5月22日
专知会员服务
124+阅读 · 2020年3月6日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
57+阅读 · 2019年12月26日
深度神经网络模型压缩与加速综述
专知会员服务
66+阅读 · 2019年10月12日
相关资讯
生成对抗网络的最新研究进展
AI科技评论
4+阅读 · 2019年2月6日
蚂蚁金服微服务实践(附演讲PPT)
开源中国
13+阅读 · 2018年12月21日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
9+阅读 · 2018年11月27日
已删除
将门创投
7+阅读 · 2018年11月5日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
27+阅读 · 2018年10月31日
相关论文
Yikai Yan,Chaoyue Niu,Yucheng Ding,Zhenzhe Zheng,Fan Wu,Guihai Chen,Shaojie Tang,Zhihua Wu
9+阅读 · 2020年2月18日
Meta Learning for End-to-End Low-Resource Speech Recognition
Jui-Yang Hsu,Yuan-Jui Chen,Hung-yi Lee
16+阅读 · 2019年10月26日
Area Attention
Yang Li,Lukasz Kaiser,Samy Bengio,Si Si
4+阅读 · 2019年5月23日
Filippos Kokkinos,Stamatios Lefkimmiatis
3+阅读 · 2018年11月29日
Learning Graph Embeddings from WordNet-based Similarity Measures
Andrey Kutuzov,Alexander Panchenko,Sarah Kohail,Mohammad Dorgham,Oleksiy Oliynyk,Chris Biemann
3+阅读 · 2018年8月16日
Xing Niu,Sudha Rao,Marine Carpuat
4+阅读 · 2018年6月12日
Satoru Katsumata,Yukio Matsumura,Hayahide Yamagishi,Mamoru Komachi
3+阅读 · 2018年5月28日
Yeonwoo Jeong,Hyun Oh Song
6+阅读 · 2018年5月15日
Jason, Dai,Yiheng Wang,Xin Qiu,Ding Ding,Yao Zhang,Yanzhang Wang,Xianyan Jia, Cherry, Zhang,Yan Wan,Zhichao Li,Jiao Wang,Shengsheng Huang,Zhongyuan Wu,Yang Wang,Yuhao Yang,Bowen She,Dongjie Shi,Qi Lu,Kai Huang,Guoqiong Song
3+阅读 · 2018年4月16日
Zuxuan Wu,Tushar Nagarajan,Abhishek Kumar,Steven Rennie,Larry S. Davis,Kristen Grauman,Rogerio Feris
5+阅读 · 2018年3月30日
Top