量化¶

量化以更小的記憶體佔用為代價來換取模型精度，從而允許在更廣泛的裝置上執行大型模型。

支援的硬體¶

下表顯示了 vLLM 中各種量化實現與不同硬體平臺的相容性

實現	Volta	Turing	Ampere	Ada	Hopper	AMD GPU	Intel GPU	Intel Gaudi	x86 CPU
AWQ	❌	✅︎	✅︎	✅︎	✅︎	❌	✅︎	❌	✅︎
GPTQ	✅︎	✅︎	✅︎	✅︎	✅︎	❌	✅︎	❌	✅︎
Marlin (GPTQ/AWQ/FP8)	❌	❌	✅︎	✅︎	✅︎	❌	❌	❌	❌
INT8 (W8A8)	❌	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	✅︎
FP8 (W8A8)	❌	❌	❌	✅︎	✅︎	✅︎	❌	❌	❌
BitBLAS	✅︎	✅	✅︎	✅︎	✅︎	❌	❌	❌	❌
BitBLAS (GPTQ)	❌	❌	✅︎	✅︎	✅︎	❌	❌	❌	❌
bitsandbytes	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌
DeepSpeedFP	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌
GGUF	✅︎	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌
INC (W8A8)	❌	❌	❌	❌	❌	❌	❌	✅︎	❌

Volta 指的是 SM 7.0，Turing 指的是 SM 7.5，Ampere 指的是 SM 8.0/8.6，Ada 指的是 SM 8.9，Hopper 指的是 SM 9.0。
✅︎ 表示在指定的硬體上支援該量化方法。
❌ 表示在指定的硬體上不支援該量化方法。

注意

有關 Google TPU 上的量化支援資訊，請參閱 TPU-Inference 推薦模型和功能文件。

注意

隨著 vLLM 繼續發展並擴充套件其對不同硬體平臺和量化方法的支援，此相容性圖表可能會發生變化。

有關硬體支援和量化方法的最新資訊，請參閱 vllm/model_executor/layers/quantization 或諮詢 vLLM 開發團隊。