INT8论文 - 专知

会员服务 ·

INT8

IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference

Arxiv

0+阅读 · 11月26日

Quantization Blindspots: How Model Compression Breaks Backdoor Defenses

Arxiv

0+阅读 · 12月6日

Dimension vs. Precision: A Comparative Analysis of Autoencoders and Quantization for Efficient Vector Retrieval on BEIR SciFact

Arxiv

0+阅读 · 11月17日

Dimension vs. Precision: A Comparative Analysis of Autoencoders and Quantization for Efficient Vector Retrieval on BEIR SciFact

Arxiv

0+阅读 · 11月18日

UPMEM Unleashed: Software Secrets for Speed

Arxiv

0+阅读 · 10月3日

QStore: Quantization-Aware Compressed Model Storage

Arxiv

0+阅读 · 10月20日

Bhasha-Rupantarika: Algorithm-Hardware Co-design approach for Multilingual Neural Machine Translation

Arxiv

0+阅读 · 10月12日

Performance and Numerical Aspects of Decompositional Factorizations with FP64 Floating-Point Emulation in INT8

Arxiv

0+阅读 · 9月28日

QStore: Quantization-Aware Compressed Model Storage

Arxiv

0+阅读 · 5月7日

Hardware for converting floating-point to the microscaling (MX) format

Arxiv

0+阅读 · 2024年11月5日

"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Arxiv

0+阅读 · 2024年11月4日

Quantized neural network for complex hologram generation

Arxiv

0+阅读 · 2024年10月31日

INT-FlashAttention: Enabling Flash Attention for INT8 Quantization

INT-FlashAttention: Enabling Flash Attention for INT8 Quantization

Arxiv

0+阅读 · 2024年9月26日

INT-FlashAttention: Enabling Flash Attention for INT8 Quantization

Arxiv

0+阅读 · 2024年9月25日

Quantized neural network for complex hologram generation

Arxiv

0+阅读 · 2024年8月25日

参考链接

微信扫码咨询专知VIP会员