BitBLAS¶
vLLM 現已支援 BitBLAS 以實現更高效、更靈活的模型推理。與其他量化框架相比,BitBLAS 提供了更多的精度組合。
注意
請確保您的硬體支援所選的 dtype
(torch.bfloat16
或 torch.float16
)。大多數最新的 NVIDIA GPU 支援 float16
,而 bfloat16
在 Ampere 或 Hopper 等較新架構上更常見。詳情請參閱支援的硬體。
以下是與 vLLM 結合使用 BitBLAS 的步驟。
vLLM 讀取模型的配置檔案,並支援預量化檢查點。
您可以在以下位置找到預量化模型:
通常,這些儲存庫包含一個 quantize_config.json
檔案,其中包含 quantization_config
部分。
讀取 BitBLAS 格式檢查點¶
from vllm import LLM
import torch
# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
model=model_id,
dtype=torch.bfloat16,
trust_remote_code=True,
quantization="bitblas"
)