量化¶
量化以更小的記憶體佔用為代價來換取模型精度,從而允許在更廣泛的裝置上執行大型模型。
目錄
- AutoAWQ
- AutoRound
- BitsAndBytes
- BitBLAS
- GGUF
- GPTQModel
- INC
- INT4 W4A16
- INT8 W8A8
- FP8 W8A8
- NVIDIA 模型最佳化器
- AMD Quark
- 量化 KV 快取
- TorchAO
支援的硬體¶
下表顯示了 vLLM 中各種量化實現與不同硬體平臺的相容性
| 實現 | Volta | Turing | Ampere | Ada | Hopper | AMD GPU | Intel GPU | Intel Gaudi | x86 CPU |
|---|---|---|---|---|---|---|---|---|---|
| AWQ | ❌ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ❌ | ✅︎ | ❌ | ✅︎ |
| GPTQ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ❌ | ✅︎ | ❌ | ✅︎ |
| Marlin (GPTQ/AWQ/FP8) | ❌ | ❌ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ | ❌ |
| INT8 (W8A8) | ❌ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ | ✅︎ |
| FP8 (W8A8) | ❌ | ❌ | ❌ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ |
| BitBLAS | ✅︎ | ✅ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ | ❌ |
| BitBLAS (GPTQ) | ❌ | ❌ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ | ❌ |
| bitsandbytes | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ | ❌ |
| DeepSpeedFP | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ | ❌ |
| GGUF | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ❌ | ❌ | ❌ |
| INC (W8A8) | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅︎ | ❌ |
- Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,Hopper 指的是 SM 9.0。
- ✅︎ 表示在指定的硬體上支援該量化方法。
- ❌ 表示在指定的硬體上不支援該量化方法。
注意
有關 Google TPU 上的量化支援資訊,請參閱 TPU-Inference 推薦模型和功能 文件。
注意
隨著 vLLM 繼續發展並擴充套件其對不同硬體平臺和量化方法的支援,此相容性圖表可能會發生變化。
有關硬體支援和量化方法的最新資訊,請參閱 vllm/model_executor/layers/quantization 或諮詢 vLLM 開發團隊。