跳到內容
vLLM
使用者指南
正在初始化搜尋
GitHub
主頁
使用者指南
開發者指南
API 參考
CLI 參考
社群
vLLM
GitHub
主頁
使用者指南
使用者指南
使用者指南
vLLM V1
通用
通用
常見問題
生產指標
可復現性
安全
故障排除
使用統計收集
推理與服務
推理與服務
離線推理
相容 OpenAI 的伺服器
資料並行部署
分散式推理與服務
專家並行部署
整合
部署
部署
使用 Docker
使用 Kubernetes
使用 Nginx
框架
整合
訓練
訓練
人類反饋強化學習
Transformer 強化學習
配置
配置
摘要
記憶體節約
引擎引數
環境變數
模型解析
最佳化與調優
伺服器引數
模型
模型
支援的模型
生成模型
池化模型
擴充套件
硬體支援的模型
功能
功能
相容性矩陣
自動字首快取
解耦預填充(實驗性)
LoRA 介面卡
多模態輸入
提示詞嵌入輸入
推理輸出
推測解碼
結構化輸出
工具呼叫
量化
開發者指南
API 參考
CLI 參考
社群
使用 vLLM
¶
vLLM 支援以下使用模式
推理與服務
:執行模型的單個例項。
部署
:為生產環境擴充套件模型例項。
訓練
:訓練或微調模型。
回到頂部