跳到主要內容

Ctrl+K

您正在檢視最新的開發者預覽文件。點選此處檢視最新穩定版本的文件。

入門指南

安裝
快速入門
示例
問題排查
常見問題解答
vLLM V1 使用者指南

模型

支援的模型
生成模型
池化模型
內建擴充套件

特性

量化
- 支援的硬體
- AutoAWQ
- BitsAndBytes
- GGUF
- GPTQModel
- INT4 W4A16
- INT8 W8A8
- FP8 W8A8
- AMD QUARK
- 量化 KV 快取
- TorchAO
LoRA 介面卡
工具呼叫
推理輸出
結構化輸出
自動字首快取
解耦預填充 (實驗性)
推測解碼
相容性矩陣

訓練

Transformers 強化學習
基於人類反饋的強化學習

推理和服務

離線推理
OpenAI 相容伺服器
多模態輸入
分散式推理和服務
生產指標
引擎引數
環境變數
使用情況統計收集
外部整合
- LangChain
- LlamaIndex

部署

使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
- BentoML
- Cerebrium
- dstack
- Helm
- LWS
- Modal
- SkyPilot
- NVIDIA Triton
外部整合
- KServe
- KubeAI
- Llama Stack
- llmaz
- 生產堆疊

效能

最佳化和調優
基準測試套件

設計文件

架構概述
與 HuggingFace 整合
vLLM 的外掛系統
vLLM 分頁注意力
多模態資料處理
自動字首快取
Python 多程序

V1 設計文件

vLLM 的 torch.compile 整合
自動字首快取
指標

開發者指南

為 vLLM 做貢獻
vLLM 效能分析
Dockerfile
新增新模型
漏洞管理

API 參考

離線推理
- LLM 類
- LLM 輸入
vLLM 引擎
- LLMEngine
- AsyncLLMEngine
推理引數
多模態
模型開發

社群

vLLM 部落格
vLLM 聚會
贊助商

倉庫
建議編輯

.md

內建擴充套件

內建擴充套件#

使用 Run:ai Model Streamer 載入模型
使用 CoreWeave 的 Tensorizer 載入模型
使用 fastsafetensors 載入模型權重

上一頁

池化模型

下一頁

使用 Run:ai Model Streamer 載入模型

由 vLLM 團隊提供

© 版權所有 2025, vLLM 團隊。