歡迎來到 vLLM¶


人人可用的便捷、快速、經濟的 LLM 服務
vLLM 是一個用於 LLM 推理和服務的快速易用庫。
vLLM 最初由加州大學伯克利分校的天空計算實驗室開發,現已發展成為一個由學術界和工業界共同貢獻的社群驅動專案。
vLLM 具有以下優勢:
- 最先進的服務吞吐量
- 透過 PagedAttention 有效管理注意力鍵值記憶體
- 對傳入請求進行連續批處理
- 使用 CUDA/HIP 圖進行快速模型執行
- 量化:GPTQ、AWQ、INT4、INT8 和 FP8
- 最佳化的 CUDA 核心,包括與 FlashAttention 和 FlashInfer 的整合。
- 推測解碼
- 分塊預填充
vLLM 具有以下靈活性和易用性:
- 與流行的 HuggingFace 模型無縫整合
- 支援各種解碼演算法的高吞吐量服務,包括並行取樣、集束搜尋等
- 支援張量並行、流水線並行、資料並行和專家並行,用於分散式推理
- 流式輸出
- 相容 OpenAI 的 API 伺服器
- 支援英偉達 GPU、AMD CPU 和 GPU、英特爾 CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
- 字首快取支援
- 多 LoRA 支援
更多資訊,請查閱以下內容:
- vLLM 釋出部落格文章 (PagedAttention 介紹)
- vLLM 論文 (SOSP 2023)
- Cade Daniel 等人的文章:連續批處理如何在 LLM 推理中將吞吐量提高 23 倍同時降低 p50 延遲
- vLLM 交流會