跳到內容

您正在檢視最新的開發者預覽版文件。點選此處檢視最新穩定版的文件。

vLLM

量化

正在初始化搜尋

主頁
使用者指南
開發者指南
API 參考
CLI 參考
社群

vLLM

主頁
使用者指南
使用者指南
- 使用者指南
- vLLM V1
- 通用
  通用
- 推理與服務
  推理與服務
- 部署
  部署
- 訓練
  訓練
  - 人類反饋強化學習
  - Transformer 強化學習
- 配置
  配置
- 模型
  模型
- 功能
  功能
  - 相容性矩陣
  - 自動字首快取
  - 解耦預填充（實驗性）
  - LoRA 介面卡
  - 多模態輸入
  - 提示詞嵌入輸入
  - 推理輸出
  - 推測解碼
  - 結構化輸出
  - 工具呼叫
  - 量化
    量化
    
    量化
    
    AutoAWQ
    
    AutoRound
    
    BitBLAS
    
    BitsAndBytes
    
    FP8 W8A8
    
    GGUF
    
    GPTQModel
    
    FP8 INC
    
    INT4 W4A16
    
    INT8 W8A8
    
    NVIDIA TensorRT 模型最佳化器
    
    量化 KV 快取
    
    AMD Quark
    
    支援的硬體
    
    TorchAO
開發者指南
API 參考
CLI 參考
社群

量化¶

量化以模型精度為代價，換取更小的記憶體佔用，從而使大型模型能在更廣泛的裝置上執行。

目錄

支援的硬體
AutoAWQ
AutoRound
BitsAndBytes
BitBLAS
GGUF
GPTQModel
INC
INT4 W4A16
INT8 W8A8
FP8 W8A8
NVIDIA TensorRT 模型最佳化器
AMD Quark
量化 KV 快取
TorchAO

使用 Material for MkDocs 構建