推薦模型和功能矩陣¶
儘管 vLLM TPU 的新統一後端能夠讓任何 vLLM 支援的模型實現開箱即用的高效能服務,但現實是,我們仍在實現一些核心元件的過程中。因此,在我們落地更多功能之前,我們建議從以下經過壓力測試的模型和功能列表中開始。
我們仍在 tpu-inference 中落地一些將提高更大規模、更復雜模型(XL MoE、+vision 編碼器、MLA 等)效能的元件。
如果您希望我們優先處理特定內容,請在此處 提交 GitHub 功能請求。
推薦模型¶
這些表格顯示了當前經過準確性和效能測試的模型。
僅文字模型¶
| 模型 | 單元測試 | 整合測試 | 基準測試 |
|---|---|---|---|
| meta-llama/Llama-3.3-70B-Instruct | ✅ | ✅ | ✅ |
| Qwen/Qwen3-4B | ✅ | ✅ | ✅ |
| google/gemma-3-27b-it | ✅ | ✅ | ✅ |
| Qwen/Qwen3-32B | ✅ | ✅ | ✅ |
| meta-llama/Llama-Guard-4-12B | ✅ | ✅ | ✅ |
| meta-llama/Llama-3.1-8B-Instruct | ✅ | ✅ | ✅ |
| Qwen/Qwen3-30B-A3B | ✅ | ✅ | ✅ |
多模態模型¶
| 模型 | 單元測試 | 整合測試 | 基準測試 |
|---|---|---|---|
| meta-llama/Llama-4-Maverick-17B-128E-Instruct | 未經驗證 | 未經驗證 | 未經驗證 |
| Qwen/Qwen2.5-VL-7B-Instruct | ✅ | ✅ | ✅ |
推薦功能¶
此表顯示了當前經過準確性和效能測試的功能。
| 功能 | 正確性測試 | 效能測試 |
|---|---|---|
| 分塊預填充 | ✅ | ✅ |
| 基於 DCN 的 P/D 分離 | 未經驗證 | 未經驗證 |
| KV 快取主機解除安裝 | 未經驗證 | 未經驗證 |
| LoRA_Torch | ✅ | 未經驗證 |
| 多模態輸入 | ✅ | ✅ |
| 外部模型支援 | ✅ | ✅ |
| 字首快取 | ✅ | ✅ |
| 單程式多資料 | ✅ | ✅ |
| 推測性解碼:Eagle3 | ✅ | ✅ |
| 推測性解碼:Ngram | ✅ | ✅ |
| 非同步排程器 | ✅ | ✅ |
| runai_model_streamer_loader | ✅ | 不適用 |
| sampling_params | ✅ | 不適用 |
| 結構化解碼 | ✅ | 不適用 |
核心支援¶
此表顯示了當前的核心支援狀態。
| 功能 | 正確性測試 | 效能測試 |
|---|---|---|
| 集體通訊矩陣乘法 | ✅ | 未經驗證 |
| MLA | 未經驗證 | 未經驗證 |
| MoE | 未經驗證 | 未經驗證 |
| 量化注意力 | 未經驗證 | 未經驗證 |
| 量化 KV 快取 | 未經驗證 | 未經驗證 |
| 量化矩陣乘法 | 未經驗證 | 未經驗證 |
| Ragged Paged Attention V3 | ✅ | ✅ |
並行支援¶
此表顯示了當前的並行支援狀態。
| 功能 | 正確性測試 | 效能測試 |
|---|---|---|
| CP | 未經驗證 | 未經驗證 |
| DP | ❌ | 不適用 |
| EP | 未經驗證 | 未經驗證 |
| PP | ✅ | ✅ |
| SP | 未經驗證 | 未經驗證 |
| TP | 未經驗證 | 未經驗證 |
量化支援¶
此表顯示了當前的量化支援狀態。
| 功能 | 推薦的 TPU 代 | 正確性測試 | 效能測試 |
|---|---|---|---|
| AWQ INT4 | v5, v6 | 未經驗證 | 未經驗證 |
| FP4 W4A16 | v7 | 未經驗證 | 未經驗證 |
| FP8 W8A8 | v7 | 未經驗證 | 未經驗證 |
| FP8 W8A16 | v7 | 未經驗證 | 未經驗證 |
| INT4 W4A16 | v5, v6 | 未經驗證 | 未經驗證 |
| INT8 W8A8 | v5, v6 | 未經驗證 | 未經驗證 |