Serving deep learning based recommendation models (DLRM) at scale is challenging. Existing systems rely on CPU-based ANN indexing and filtering services, suffering from non-negligible costs and forgoing joint optimization opportunities. Such inefficiency makes them difficult to support more complex model architectures, such as learned similarities and multi-task retrieval. In this paper, we propose SilverTorch, a model-based system for serving recommendation models on GPUs. SilverTorch unifies model serving by replacing standalone indexing and filtering services with layers of served models. We propose a Bloom index algorithm on GPUs for feature filtering and a tensor-native fused Int8 ANN kernel on GPUs for nearest neighbor search. We further co-design the ANN search index and filtering index to reduce GPU memory utilization and eliminate unnecessary computation. Benefit from SilverTorch's serving paradigm, we introduce a OverArch scoring layer and a Value Model to aggregate results across multi-tasks. These advancements improve the accuracy for retrieval and enable future studies for serving more complex models. For ranking, SilverTorch's design accelerates item embedding calculation by caching the pre-calculated embeddings inside the serving model. Our evaluation on the industry-scale datasets show that SilverTorch achieves up to 5.6x lower latency and 23.7x higher throughput compared to the state-of-the-art approaches. We also demonstrate that SilverTorch's solution is 13.35x more cost-efficient than CPU-based solution while improving accuracy via serving more complex models. SilverTorch serves over hundreds of models online across major products and recommends contents for billions of daily active users.


翻译:大规模服务基于深度学习的推荐模型(DLRM)具有挑战性。现有系统依赖于基于CPU的近似最近邻索引和过滤服务,存在不可忽视的成本,并错失了联合优化的机会。这种低效性使得它们难以支持更复杂的模型架构,例如学习相似性和多任务检索。本文提出SilverTorch,一种在GPU上服务推荐模型的基于模型的系统。SilverTorch通过用服务模型的层替换独立的索引和过滤服务,统一了模型服务。我们提出了一种在GPU上的布隆索引算法用于特征过滤,以及一种在GPU上的张量原生融合Int8近似最近邻内核用于最近邻搜索。我们进一步协同设计近似最近邻搜索索引和过滤索引,以减少GPU内存占用并消除不必要的计算。受益于SilverTorch的服务范式,我们引入了OverArch评分层和值模型来聚合多任务的结果。这些进展提高了检索的准确性,并为服务更复杂模型的未来研究提供了可能。对于排序,SilverTorch的设计通过缓存服务模型内预计算的嵌入,加速了物品嵌入的计算。我们在工业规模数据集上的评估表明,与最先进的方法相比,SilverTorch实现了高达5.6倍的延迟降低和23.7倍的吞吐量提升。我们还证明,SilverTorch的解决方案比基于CPU的解决方案成本效益高出13.35倍,同时通过服务更复杂的模型提高了准确性。SilverTorch在主要产品中在线服务数百个模型,并为数十亿日活跃用户推荐内容。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员