跳到內容

vLLM TPU

主頁

主頁

| 文件 | 部落格 | 使用者論壇 | 開發者 Slack |

關於¶

vLLM TPU 現在由 tpu-inference 提供支援，這是一個富有表現力和強大的新硬體外掛，在 vLLM 專案中統一了 JAX 和 PyTorch 的單一降低路徑。新後端現在為開發者提供了一個框架，可以

推動開源 TPU 硬體效能的極限。
透過在 TPU 上高效能執行 PyTorch 模型定義，而無需任何額外的程式碼更改，為 JAX 和 PyTorch 使用者提供更大的靈活性，同時還為 JAX 提供了原生支援。
保持 vLLM 標準化：保持相同的使用者體驗、遙測和介面。

推薦模型和功能¶

儘管 vLLM TPU 的新統一後端使開箱即用的高效能服務成為可能，支援 vLLM 中的任何模型，但現實是我們仍在實現一些核心元件的過程中。

因此，我們提供了一個推薦模型和功能頁面，其中詳細介紹了透過單元、整合和效能測試的驗證模型和功能。

入門¶

如果您是 vLLM on TPU 的新手，我們建議從快速入門指南開始。它將引導您完成設定環境和執行第一個模型的過程。有關更詳細的安裝說明，您可以參考安裝指南。

相容的 TPU 代

推薦：v5e, v6e
實驗性：v3, v4, v5p

在 tpu-recipes 倉庫中檢視一些 v6e 配置！

開發者指南¶

如果您有興趣為專案做貢獻或想了解更多內部資訊，請檢視我們的開發者指南

JAX 模型開發
Torch 模型開發

貢獻¶

我們一直在尋找與社群合作以加速 vLLM TPU 開發的方法。如果您有興趣為這項工作做出貢獻，請檢視貢獻指南和問題以開始。如果您是第一次貢獻，我們建議在“很好的第一個問題”標籤上過濾問題。

聯絡我們¶

有關技術問題和功能請求，請在 GitHub 上建立一個問題
對於功能請求，請在此處在 Github 上建立一個
要與其他使用者討論，請使用 vLLM 論壇上的TPU 支援主題
要協調貢獻和開發，請使用開發者 Slack
如需合作和夥伴關係，請透過 [email protected] 聯絡我們