跳到內容

推薦模型和功能矩陣

儘管 vLLM TPU 的新統一後端能夠讓任何 vLLM 支援的模型實現開箱即用的高效能服務,但現實是,我們仍在實現一些核心元件的過程中。因此,在我們落地更多功能之前,我們建議從以下經過壓力測試的模型和功能列表中開始。

我們仍在 tpu-inference 中落地一些將提高更大規模、更復雜模型(XL MoE、+vision 編碼器、MLA 等)效能的元件。

如果您希望我們優先處理特定內容,請在此處 提交 GitHub 功能請求

這些表格顯示了當前經過準確性和效能測試的模型。

僅文字模型

模型 單元測試 整合測試 基準測試
meta-llama/Llama-3.3-70B-Instruct
Qwen/Qwen3-4B
google/gemma-3-27b-it
Qwen/Qwen3-32B
meta-llama/Llama-Guard-4-12B
meta-llama/Llama-3.1-8B-Instruct
Qwen/Qwen3-30B-A3B

多模態模型

模型 單元測試 整合測試 基準測試
meta-llama/Llama-4-Maverick-17B-128E-Instruct 未經驗證 未經驗證 未經驗證
Qwen/Qwen2.5-VL-7B-Instruct

此表顯示了當前經過準確性和效能測試的功能。

功能 正確性測試 效能測試
分塊預填充
基於 DCN 的 P/D 分離 未經驗證 未經驗證
KV 快取主機解除安裝 未經驗證 未經驗證
LoRA_Torch 未經驗證
多模態輸入
外部模型支援
字首快取
單程式多資料
推測性解碼:Eagle3
推測性解碼:Ngram
非同步排程器
runai_model_streamer_loader 不適用
sampling_params 不適用
結構化解碼 不適用

核心支援

此表顯示了當前的核心支援狀態。

功能 正確性測試 效能測試
集體通訊矩陣乘法 未經驗證
MLA 未經驗證 未經驗證
MoE 未經驗證 未經驗證
量化注意力 未經驗證 未經驗證
量化 KV 快取 未經驗證 未經驗證
量化矩陣乘法 未經驗證 未經驗證
Ragged Paged Attention V3

並行支援

此表顯示了當前的並行支援狀態。

功能 正確性測試 效能測試
CP 未經驗證 未經驗證
DP 不適用
EP 未經驗證 未經驗證
PP
SP 未經驗證 未經驗證
TP 未經驗證 未經驗證

量化支援

此表顯示了當前的量化支援狀態。

功能 推薦的 TPU 代 正確性測試 效能測試
AWQ INT4 v5, v6 未經驗證 未經驗證
FP4 W4A16 v7 未經驗證 未經驗證
FP8 W8A8 v7 未經驗證 未經驗證
FP8 W8A16 v7 未經驗證 未經驗證
INT4 W4A16 v5, v6 未經驗證 未經驗證
INT8 W8A8 v5, v6 未經驗證 未經驗證