In today's data-driven era, deep learning is vital for processing massive datasets, yet single-device training is constrained by computational and memory limits. Distributed deep learning overcomes these challenges by leveraging multiple GPUs or machines in parallel. While general-purpose frameworks (e.g., TensorFlow and PyTorch) provide distributed capabilities, these are often add-on features that demand significant manual effort for advanced parallelism, underscoring the need for specialized frameworks. This study conducts the first large-scale empirical analysis of practitioner challenges in dedicated distributed frameworks. We examine 849 real-world issues from DeepSpeed, Megatron-LM, and Colossal-AI and construct a taxonomy of 34 bug symptoms, 28 root causes, and 6 fix patterns. Crucially, we establish explicit mappings between symptoms, causes, and fixes across distributed training stages, enabling a systematic understanding of how issues emerge and are resolved. Our results show that 45.1\% of bug symptoms are unique to distributed frameworks, with setup failures, memory issues, and performance anomalies being the most prevalent. Moreover, 95\% of issues in the communication setup stage occur exclusively in distributed contexts. We also find over 60\% of cases can be resolved through version and dependency management, and distributed feature, API, and communication tuning. Based on these findings, we provide actionable implications.


翻译:在当今数据驱动时代,深度学习对于处理海量数据集至关重要,但单设备训练受限于计算能力和内存容量。分布式深度学习通过并行利用多个GPU或机器克服了这些挑战。虽然通用框架(如TensorFlow和PyTorch)提供分布式功能,但这些通常是附加特性,需要大量手动工作来实现高级并行化,这凸显了专用框架的必要性。本研究首次对专用分布式框架中实践者面临的挑战进行大规模实证分析。我们检查了来自DeepSpeed、Megatron-LM和Colossal-AI的849个现实问题,构建了包含34种缺陷症状、28种根本原因和6种修复模式的分类体系。关键的是,我们在分布式训练各阶段建立了症状、原因与修复之间的明确映射关系,从而能够系统理解问题如何产生及如何解决。我们的结果表明,45.1%的缺陷症状是分布式框架特有的,其中设置失败、内存问题和性能异常最为普遍。此外,通信设置阶段95%的问题仅出现在分布式环境中。我们还发现超过60%的案例可通过版本与依赖管理、分布式特性调整、API优化及通信调优来解决。基于这些发现,我们提出了可操作的实践建议。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员