跳到內容

歡迎來到 vLLM

vLLM Light vLLM Dark

人人可用的便捷、快速、經濟的 LLM 服務

星標 關注 復刻

vLLM 是一個用於 LLM 推理和服務的快速易用庫。

vLLM 最初由加州大學伯克利分校的天空計算實驗室開發,現已發展成為一個由學術界和工業界共同貢獻的社群驅動專案。

vLLM 具有以下優勢:

  • 最先進的服務吞吐量
  • 透過 PagedAttention 有效管理注意力鍵值記憶體
  • 對傳入請求進行連續批處理
  • 使用 CUDA/HIP 圖進行快速模型執行
  • 量化:GPTQAWQ、INT4、INT8 和 FP8
  • 最佳化的 CUDA 核心,包括與 FlashAttention 和 FlashInfer 的整合。
  • 推測解碼
  • 分塊預填充

vLLM 具有以下靈活性和易用性:

  • 與流行的 HuggingFace 模型無縫整合
  • 支援各種解碼演算法的高吞吐量服務,包括並行取樣集束搜尋
  • 支援張量並行、流水線並行、資料並行和專家並行,用於分散式推理
  • 流式輸出
  • 相容 OpenAI 的 API 伺服器
  • 支援英偉達 GPU、AMD CPU 和 GPU、英特爾 CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
  • 字首快取支援
  • 多 LoRA 支援

更多資訊,請查閱以下內容: