跳到內容

歡迎使用 vLLM

vLLM Light vLLM Dark

每個人都能輕鬆、快速、廉價地部署大語言模型服務

Star Watch Fork

vLLM 是一個快速且易於使用的大語言模型推理和服務庫。

最初由加州大學伯克利分校的Sky Computing Lab開發,vLLM 現已發展成為一個由學術界和工業界共同貢獻的社群驅動專案。

vLLM 具有以下優勢,速度飛快:

  • 最先進的服務吞吐量
  • 透過PagedAttention高效管理注意力鍵值記憶體
  • 對傳入請求進行連續批處理
  • 藉助 CUDA/HIP 圖實現快速模型執行
  • 量化:GPTQAWQ、INT4、INT8 和 FP8
  • 最佳化的 CUDA 核心,包括與 FlashAttention 和 FlashInfer 的整合。
  • 推測解碼
  • 分塊預填充

vLLM 靈活且易於使用,具有以下特點:

  • 與流行的 HuggingFace 模型無縫整合
  • 支援多種解碼演算法實現高吞吐量服務,包括並行取樣集束搜尋
  • 支援張量、流水線、資料和專家並行,用於分散式推理
  • 流式輸出
  • 相容 OpenAI 的 API 伺服器
  • 支援 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
  • 字首快取支援
  • 多 LoRA 支援

更多資訊,請查閱以下內容: