成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
GPUs
关注
0
综合
百科
VIP
热门
动态
论文
精华
Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs
Arxiv
0+阅读 · 5月30日
S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs
Arxiv
0+阅读 · 5月30日
Multilevel Interior Penalty Methods on GPUs
Arxiv
0+阅读 · 5月30日
Multilevel Interior Penalty Methods on GPUs
Arxiv
0+阅读 · 5月29日
KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis
Arxiv
0+阅读 · 5月28日
Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters
Arxiv
0+阅读 · 5月28日
HetHub: A Heterogeneous distributed hybrid training system for large-scale models
Arxiv
0+阅读 · 5月25日
HexGen: Generative Inference of Large Language Model over Heterogeneous Environment
Arxiv
0+阅读 · 5月27日
PipeFusion: Displaced Patch Pipeline Parallelism for Inference of Diffusion Transformer Models
Arxiv
0+阅读 · 5月26日
MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence
Arxiv
0+阅读 · 5月24日
ZeroPP: Unleashing Exceptional Parallelism Efficiency through Tensor-Parallelism-Free Methodology
Arxiv
0+阅读 · 5月24日
Memory Scraping Attack on Xilinx FPGAs: Private Data Extraction from Terminated Processes
Arxiv
0+阅读 · 5月22日
ZeroPP: Unleashing Exceptional Parallelism Efficiency through Tensor-Parallelism-Free Methodology
Arxiv
0+阅读 · 5月23日
PipeFusion: Displaced Patch Pipeline Parallelism for Inference of Diffusion Transformer Models
Arxiv
0+阅读 · 5月23日
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
Arxiv
0+阅读 · 5月21日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top