歡迎使用 vLLM¶


每個人都能輕鬆、快速、廉價地部署大語言模型服務
vLLM 是一個快速且易於使用的大語言模型推理和服務庫。
最初由加州大學伯克利分校的Sky Computing Lab開發,vLLM 現已發展成為一個由學術界和工業界共同貢獻的社群驅動專案。
vLLM 具有以下優勢,速度飛快:
- 最先進的服務吞吐量
- 透過PagedAttention高效管理注意力鍵值記憶體
- 對傳入請求進行連續批處理
- 藉助 CUDA/HIP 圖實現快速模型執行
- 量化:GPTQ、AWQ、INT4、INT8 和 FP8
- 最佳化的 CUDA 核心,包括與 FlashAttention 和 FlashInfer 的整合。
- 推測解碼
- 分塊預填充
vLLM 靈活且易於使用,具有以下特點:
- 與流行的 HuggingFace 模型無縫整合
- 支援多種解碼演算法實現高吞吐量服務,包括並行取樣、集束搜尋等
- 支援張量、流水線、資料和專家並行,用於分散式推理
- 流式輸出
- 相容 OpenAI 的 API 伺服器
- 支援 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
- 字首快取支援
- 多 LoRA 支援
更多資訊,請查閱以下內容:
- vLLM 釋出部落格文章(PagedAttention 簡介)
- vLLM 論文 (SOSP 2023)
- 連續批處理如何使 LLM 推理吞吐量提高 23 倍,同時降低 p50 延遲 (Cade Daniel 等著)
- vLLM 交流會