Modern machine learning training is increasingly bottlenecked by data I/O rather than compute. GPUs often sit idle at below 50% utilization waiting for data. This paper presents a machine learning approach to predict I/O performance and recommend optimal storage configurations for ML training pipelines. We collected 141 observations through systematic benchmarking across different storage backends (NVMe SSD, network-attached storage, in-memory filesystems), data formats, and access patterns, covering both low-level I/O operations and full training pipelines. After evaluating seven regression models and three classification approaches, XGBoost achieved the best performance with R-squared of 0.991, predicting I/O throughput within 11.8% error on average. Feature importance analysis revealed that throughput metrics and batch size are the primary performance drivers. This data-driven approach can reduce configuration time from days of trial-and-error to minutes of predictive recommendation. The methodology is reproducible and extensible to other resource management problems in ML systems. Code and data are available at https://github.com/knkarthik01/gpu_storage_ml_project


翻译:现代机器学习训练日益受限于数据I/O而非计算能力,GPU常因等待数据而处于低于50%利用率的闲置状态。本文提出一种机器学习方法,用于预测I/O性能并为ML训练流水线推荐最优存储配置。我们通过系统化基准测试收集了141组观测数据,涵盖不同存储后端(NVMe SSD、网络附加存储、内存文件系统)、数据格式和访问模式,同时包含底层I/O操作和完整训练流水线。在评估七种回归模型和三种分类方法后,XGBoost以0.991的决定系数取得最佳性能,其I/O吞吐量预测平均误差控制在11.8%以内。特征重要性分析表明吞吐量指标和批处理规模是主要性能驱动因素。这种数据驱动方法可将配置时间从数天的试错过程缩短至数分钟的预测推荐。该方法具有可复现性,并可扩展至ML系统中其他资源管理问题。代码与数据详见https://github.com/knkarthik01/gpu_storage_ml_project

0
下载
关闭预览

相关内容

国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员