跳到內容

主頁

vLLM TPU vLLM TPU

| 文件 | 部落格 | 使用者論壇 | 開發者 Slack |


關於

vLLM TPU 現在由 tpu-inference 提供支援,這是一個富有表現力和強大的新硬體外掛,在 vLLM 專案中統一了 JAX 和 PyTorch 的單一降低路徑。新後端現在為開發者提供了一個框架,可以

  • 推動開源 TPU 硬體效能的極限。
  • 透過在 TPU 上高效能執行 PyTorch 模型定義,而無需任何額外的程式碼更改,為 JAX 和 PyTorch 使用者提供更大的靈活性,同時還為 JAX 提供了原生支援。
  • 保持 vLLM 標準化:保持相同的使用者體驗、遙測和介面。

儘管 vLLM TPU 的新統一後端使開箱即用的高效能服務成為可能,支援 vLLM 中的任何模型,但現實是我們仍在實現一些核心元件的過程中。

因此,我們提供了一個推薦模型和功能頁面,其中詳細介紹了透過單元、整合和效能測試的驗證模型和功能。

入門

如果您是 vLLM on TPU 的新手,我們建議從快速入門指南開始。它將引導您完成設定環境和執行第一個模型的過程。有關更詳細的安裝說明,您可以參考安裝指南。

相容的 TPU 代

  • 推薦:v5e, v6e
  • 實驗性:v3, v4, v5p

tpu-recipes 倉庫 中檢視一些 v6e 配置!

開發者指南

如果您有興趣為專案做貢獻或想了解更多內部資訊,請檢視我們的開發者指南

貢獻

我們一直在尋找與社群合作以加速 vLLM TPU 開發的方法。如果您有興趣為這項工作做出貢獻,請檢視貢獻指南問題以開始。如果您是第一次貢獻,我們建議在“很好的第一個問題”標籤上過濾問題。

聯絡我們