跳到主要內容
Ctrl+K

您正在檢視最新的開發者預覽文件。點選此處檢視最新穩定版本的文件。

vLLM - Home vLLM - Home

入門指南

  • 安裝
    • GPU
    • CPU
    • 其他 AI 加速器
  • 快速入門
  • 示例
    • 離線推理
      • 音訊語言
      • 基礎
      • 與工具聊天
      • CPU 解除安裝 LMCache
      • 資料並行
      • 解耦預填充
      • 解耦預填充 LMCache
      • 分散式
      • Eagle
      • 嵌入 Jina Embeddings V3
      • 編碼器解碼器
      • 編碼器解碼器多模態
      • LLM 引擎示例
      • 載入分片狀態
      • LoRA 與量化推理
      • Mistral-Small
      • MLPSpeculator
      • MultiLoRA 推理
      • Neuron
      • Neuron INT8 量化
      • 使用 OpenAI 批次檔案格式進行離線推理
      • 字首快取
      • Prithvi 地理空間 MAE
      • 效能分析
      • vLLM TPU 效能分析
      • 可重現性
      • RLHF
      • RLHF 同位
      • RLHF 工具
      • 儲存分片狀態
      • 簡單效能分析
      • 結構化輸出
      • Torchrun 示例
      • TPU
      • 視覺語言
      • 視覺語言嵌入
      • 視覺語言多影像
    • 線上服務
      • API 客戶端
      • Helm Charts
      • Cohere Rerank 客戶端
      • 解耦預填充
      • Gradio OpenAI 聊天機器人 Web 伺服器
      • Gradio Web 伺服器
      • Jinaai Rerank 客戶端
      • 多節點服務
      • OpenAI 聊天完成客戶端
      • OpenAI 多模態聊天完成客戶端
      • OpenAI 帶工具的聊天完成客戶端
      • OpenAI 帶所需工具的聊天完成客戶端
      • OpenAI 結構化輸出聊天完成
      • OpenAI 帶推理的結構化輸出聊天完成
      • OpenAI 帶推理的工具呼叫聊天完成
      • OpenAI 帶推理的聊天完成
      • OpenAI 帶推理的流式聊天完成
      • OpenAI 多模態聊天嵌入客戶端
      • OpenAI 完成客戶端
      • OpenAI 交叉編碼器評分
      • OpenAI 嵌入客戶端
      • OpenAI 池化客戶端
      • OpenAI 轉錄客戶端
      • 設定 OpenTelemetry POC
      • Prometheus 和 Grafana
      • 執行叢集
      • Sagemaker-Entrypoint
    • 其他
      • 日誌配置
      • 張量化 vLLM 模型
  • 問題排查
  • 常見問題解答
  • vLLM V1 使用者指南

模型

  • 支援的模型
  • 生成模型
  • 池化模型
  • 內建擴充套件
    • 使用 Run:ai Model Streamer 載入模型
    • 使用 CoreWeave 的 Tensorizer 載入模型
    • 使用 fastsafetensors 載入模型權重

特性

  • 量化
    • 支援的硬體
    • AutoAWQ
    • BitsAndBytes
    • GGUF
    • GPTQModel
    • INT4 W4A16
    • INT8 W8A8
    • FP8 W8A8
    • AMD QUARK
    • 量化 KV 快取
    • TorchAO
  • LoRA 介面卡
  • 工具呼叫
  • 推理輸出
  • 結構化輸出
  • 自動字首快取
  • 解耦預填充 (實驗性)
  • 推測解碼
  • 相容性矩陣

訓練

  • Transformers 強化學習
  • 基於人類反饋的強化學習

推理和服務

  • 離線推理
  • OpenAI 相容伺服器
  • 多模態輸入
  • 分散式推理和服務
  • 生產指標
  • 引擎引數
  • 環境變數
  • 使用情況統計收集
  • 外部整合
    • LangChain
    • LlamaIndex

部署

  • 使用 Docker
  • 使用 Kubernetes
  • 使用 Nginx
  • 使用其他框架
    • BentoML
    • Cerebrium
    • dstack
    • Helm
    • LWS
    • Modal
    • SkyPilot
    • NVIDIA Triton
  • 外部整合
    • KServe
    • KubeAI
    • Llama Stack
    • llmaz
    • 生產堆疊

效能

  • 最佳化和調優
  • 基準測試套件

設計文件

  • 架構概述
  • 與 HuggingFace 整合
  • vLLM 的外掛系統
  • vLLM 分頁注意力
  • 多模態資料處理
  • 自動字首快取
  • Python 多程序

V1 設計文件

  • vLLM 的 torch.compile 整合
  • 自動字首快取
  • 指標

開發者指南

  • 為 vLLM 做貢獻
  • vLLM 效能分析
  • Dockerfile
  • 新增新模型
    • 實現基本模型
    • 向 vLLM 註冊模型
    • 編寫單元測試
    • 多模態支援
  • 漏洞管理

API 參考

  • 離線推理
    • LLM 類
    • LLM 輸入
  • vLLM 引擎
    • LLMEngine
    • AsyncLLMEngine
  • 推理引數
  • 多模態
    • 輸入定義
    • 資料解析
    • 資料處理
    • 記憶體效能分析
    • 登錄檔
  • 模型開發
    • 基本模型介面
    • 可選介面
    • 模型介面卡

社群

  • vLLM 部落格
  • vLLM 聚會
  • 贊助商
  • 倉庫
  • 建議編輯
  • .md

內建擴充套件

內建擴充套件#

  • 使用 Run:ai Model Streamer 載入模型
  • 使用 CoreWeave 的 Tensorizer 載入模型
  • 使用 fastsafetensors 載入模型權重

上一頁

池化模型

下一頁

使用 Run:ai Model Streamer 載入模型

由 vLLM 團隊提供

© 版權所有 2025, vLLM 團隊。