BitBLAS¶

vLLM 現在支援 BitBLAS，以實現更高效、更靈活的模型推理。與其他量化框架相比，BitBLAS 提供了更多的精度組合。

注意

請確保您的硬體支援所選的 dtype（torch.bfloat16 或 torch.float16）。大多數較新的 NVIDIA GPU 都支援 float16，而 bfloat16 在 Ampere 或 Hopper 等較新架構上更常見。有關詳細資訊，請參閱支援的硬體。

以下是使用 vLLM 的 BitBLAS 的步驟。

pip install bitblas>=0.1.0

vLLM 會讀取模型的配置檔案，並支援預量化檢查點。

您可以在以下位置找到預量化模型：

通常，這些儲存庫會有一個 quantize_config.json 檔案，其中包含一個 quantization_config 部分。

讀取 bitblas 格式的檢查點¶

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
    model=model_id,
    dtype=torch.bfloat16,
    trust_remote_code=True,
    quantization="bitblas",
)

讀取 gptq 格式的檢查點¶

程式碼

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1"
llm = LLM(
    model=model_id,
    dtype=torch.float16,
    trust_remote_code=True,
    quantization="bitblas",
    max_model_len=1024,
)