主頁
| 文件 | 部落格 | 使用者論壇 | 開發者 Slack |
關於¶
vLLM TPU 現在由 tpu-inference 提供支援,這是一個富有表現力和強大的新硬體外掛,在 vLLM 專案中統一了 JAX 和 PyTorch 的單一降低路徑。新後端現在為開發者提供了一個框架,可以
- 推動開源 TPU 硬體效能的極限。
- 透過在 TPU 上高效能執行 PyTorch 模型定義,而無需任何額外的程式碼更改,為 JAX 和 PyTorch 使用者提供更大的靈活性,同時還為 JAX 提供了原生支援。
- 保持 vLLM 標準化:保持相同的使用者體驗、遙測和介面。
推薦模型和功能¶
儘管 vLLM TPU 的新統一後端使開箱即用的高效能服務成為可能,支援 vLLM 中的任何模型,但現實是我們仍在實現一些核心元件的過程中。
因此,我們提供了一個推薦模型和功能頁面,其中詳細介紹了透過單元、整合和效能測試的驗證模型和功能。
入門¶
如果您是 vLLM on TPU 的新手,我們建議從快速入門指南開始。它將引導您完成設定環境和執行第一個模型的過程。有關更詳細的安裝說明,您可以參考安裝指南。
相容的 TPU 代
- 推薦:v5e, v6e
- 實驗性:v3, v4, v5p
在 tpu-recipes 倉庫 中檢視一些 v6e 配置!
開發者指南¶
如果您有興趣為專案做貢獻或想了解更多內部資訊,請檢視我們的開發者指南
貢獻¶
我們一直在尋找與社群合作以加速 vLLM TPU 開發的方法。如果您有興趣為這項工作做出貢獻,請檢視貢獻指南和問題以開始。如果您是第一次貢獻,我們建議在“很好的第一個問題”標籤上過濾問題。
聯絡我們¶
- 有關技術問題和功能請求,請在 GitHub 上建立一個問題
- 對於功能請求,請在此處 在 Github 上建立一個
- 要與其他使用者討論,請使用 vLLM 論壇上的TPU 支援主題
- 要協調貢獻和開發,請使用開發者 Slack
- 如需合作和夥伴關係,請透過 [email protected] 聯絡我們

