深度神经网络(DNNs)使计算机能够在许多不同的应用中脱颖而出,如图像分类、语音识别和机器人控制。为了加快DNN的训练和服务,并行计算被广泛采用。向外扩展时,系统效率是一个大问题。在这次演讲中,我将对分布式DNN训练和服务中更好的系统效率提出三个论点。

首先,对于模型同步,Ring All-Reduce不是最优的,但Blink是。通过打包生成树而不是形成环,Blink可以在任意网络环境中实现更高的灵活性,并提供近乎最优的网络吞吐量。Blink是一项美国专利,目前正在被微软使用。Blink获得了许多业内人士的关注,比如Facebook(分布式PyTorch团队)、字节跳动(TikTok应用的母公司)。Blink还登上了英伟达GTC中国2019以及百度、腾讯等的新闻。

其次,通过sensAI的类并行性可以消除通信。sensAI将多任务模型解耦到断开的子网中,每个子网负责单个任务的决策。sensAI的低延迟、实时模式服务吸引了湾区的几家风险投资公司。

第三,小波变换比分组调度更有效。通过有意地增加任务启动延迟,小波变换在加速器上不同训练波的内存使用峰值之间交错,从而提高了计算和设备上的内存使用。

【伯克利Guanhua Wang博士论文】分布式机器学习系统的颠覆性研究

成为VIP会员查看完整内容
42

相关内容

分布式机器学习研究将具有大规模数据量和计算量的任务分布式地部署到多台机器上,其核心思想在于“分而治之”,有效提高了大规模数据计算的速度并节省了开销。
开课了!CMU《多模态机器学习》2022课程,附课件与视频
专知会员服务
153+阅读 · 2022年2月1日
【博士论文】集群系统中的网络流调度
专知会员服务
38+阅读 · 2021年12月7日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
55+阅读 · 2021年4月21日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
24+阅读 · 2020年9月18日
量子人工智能:机遇与挑战 | 7月5日TF64
量子位
0+阅读 · 2022年7月3日
【博士论文】集群系统中的网络流调度
专知
3+阅读 · 2021年12月7日
干货:手把手教你在音频分类DCASE2017比赛中夺冠
全球人工智能
15+阅读 · 2017年9月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Active Gaze Control for Foveal Scene Exploration
Arxiv
0+阅读 · 2022年8月24日
Arxiv
19+阅读 · 2019年11月23日
Arxiv
20+阅读 · 2019年9月7日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员