跳到內容

量化

量化以更小的記憶體佔用為代價來換取模型精度,從而允許在更廣泛的裝置上執行大型模型。

目錄

支援的硬體

下表顯示了 vLLM 中各種量化實現與不同硬體平臺的相容性

實現 Volta Turing Ampere Ada Hopper AMD GPU Intel GPU Intel Gaudi x86 CPU
AWQ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
GPTQ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
Marlin (GPTQ/AWQ/FP8) ✅︎ ✅︎ ✅︎
INT8 (W8A8) ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
FP8 (W8A8) ✅︎ ✅︎ ✅︎
BitBLAS ✅︎ ✅︎ ✅︎ ✅︎
BitBLAS (GPTQ) ✅︎ ✅︎ ✅︎
bitsandbytes ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
DeepSpeedFP ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
GGUF ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
INC (W8A8) ✅︎
  • Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,Hopper 指的是 SM 9.0。
  • ✅︎ 表示在指定的硬體上支援該量化方法。
  • ❌ 表示在指定的硬體上不支援該量化方法。

注意

有關 Google TPU 上的量化支援資訊,請參閱 TPU-Inference 推薦模型和功能 文件。

注意

隨著 vLLM 繼續發展並擴充套件其對不同硬體平臺和量化方法的支援,此相容性圖表可能會發生變化。

有關硬體支援和量化方法的最新資訊,請參閱 vllm/model_executor/layers/quantization 或諮詢 vLLM 開發團隊。