生產指標¶
vLLM 暴露了許多可用於監控系統執行狀況的指標。這些指標透過 vLLM OpenAI 相容 API 伺服器上的 /metrics 端點暴露。
您可以使用 Python 或 Docker 啟動伺服器
然後查詢端點以獲取伺服器的最新指標
輸出
$ curl http://0.0.0.0:8000/metrics
# HELP vllm:iteration_tokens_total Histogram of number of tokens per engine_step.
# TYPE vllm:iteration_tokens_total histogram
vllm:iteration_tokens_total_sum{model_name="unsloth/Llama-3.2-1B-Instruct"} 0.0
vllm:iteration_tokens_total_bucket{le="1.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="8.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="16.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="32.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="64.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="128.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="256.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="512.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
...
公開的指標如下
通用指標¶
| 指標名稱 | 型別 | 描述 |
|---|---|---|
vllm:corrupted_requests | 計數器 | 損壞的請求,以 logits 中包含 NaN 的總請求數衡量。 |
vllm:external_prefix_cache_hits | 計數器 | 來自 KV 聯結器跨例項快取共享的外部字首快取命中次數,以快取的 token 數衡量。 |
vllm:external_prefix_cache_queries | 計數器 | 來自 KV 聯結器跨例項快取共享的外部字首快取查詢次數,以查詢的 token 數衡量。 |
vllm:generation_tokens | 計數器 | 已處理的生成 token 數。 |
vllm:mm_cache_hits | 計數器 | 多模態快取命中次數,以快取的專案數衡量。 |
vllm:mm_cache_queries | 計數器 | 多模態快取查詢次數,以查詢的專案數衡量。 |
vllm:num_preemptions | 計數器 | 引擎搶佔的總次數。 |
vllm:prefix_cache_hits | 計數器 | 字首快取命中次數,以快取的 token 數衡量。 |
vllm:prefix_cache_queries | 計數器 | 字首快取查詢次數,以查詢的 token 數衡量。 |
vllm:prompt_tokens | 計數器 | 已處理的預填充 token 數。 |
vllm:request_success | 計數器 | 成功處理的請求數。 |
vllm:engine_sleep_state | Gauge | 引擎睡眠狀態;喚醒 = 0 表示引擎正在睡眠;喚醒 = 1 表示引擎已喚醒;權重已解除安裝 = 1 表示睡眠級別 1;全部丟棄 = 1 表示睡眠級別 2。 |
vllm:kv_cache_usage_perc | Gauge | KV 快取使用率。1 表示 100% 使用。 |
vllm:lora_requests_info | Gauge | Lora 請求的執行統計資訊。 |
vllm:num_requests_running | Gauge | 模型執行批次中的請求數。 |
vllm:num_requests_waiting | Gauge | 等待處理的請求數。 |
vllm:e2e_request_latency_seconds | Histogram | 端到端請求延遲(秒)的直方圖。 |
vllm:inter_token_latency_seconds | Histogram | token 間延遲(秒)的直方圖。 |
vllm:iteration_tokens_total | Histogram | 每個引擎步驟的 token 數直方圖。 |
vllm:kv_block_idle_before_evict_seconds | Histogram | KV 快取塊被驅逐前的空閒時間直方圖。取樣指標(透過 --kv-cache-metrics-sample 控制)。 |
vllm:kv_block_lifetime_seconds | Histogram | KV 快取塊從分配到驅逐的生命週期直方圖。取樣指標(透過 --kv-cache-metrics-sample 控制)。 |
vllm:kv_block_reuse_gap_seconds | Histogram | 連續 KV 快取塊訪問之間的時間間隔直方圖。僅記錄最近的訪問(環形緩衝區)。取樣指標(透過 --kv-cache-metrics-sample 控制)。 |
vllm:request_decode_time_seconds | Histogram | 請求的 DECODE 階段花費的時間直方圖。 |
vllm:request_generation_tokens | Histogram | 已處理的生成 token 數。 |
vllm:request_inference_time_seconds | Histogram | 請求的 RUNNING 階段花費的時間直方圖。 |
vllm:request_max_num_generation_tokens | Histogram | 請求的最大生成 token 數直方圖。 |
vllm:request_params_max_tokens | Histogram | max_tokens 請求引數直方圖。 |
vllm:request_params_n | Histogram | n 請求引數直方圖。 |
vllm:request_prefill_kv_computed_tokens | Histogram | 預填充期間新計算的 KV token 數直方圖(不包括快取的 token)。 |
vllm:request_prefill_time_seconds | Histogram | 請求的 PREFILL 階段花費的時間直方圖。 |
vllm:request_prompt_tokens | Histogram | 已處理的預填充 token 數。 |
vllm:request_queue_time_seconds | Histogram | 請求的 WAITING 階段花費的時間直方圖。 |
vllm:request_time_per_output_token_seconds | Histogram | 每個請求的 time_per_output_token_seconds 直方圖。 |
vllm:time_per_output_token_seconds | Histogram | 每秒輸出 token 時間的直方圖。已棄用:請改用 vllm:inter_token_latency_seconds。 |
vllm:time_to_first_token_seconds | Histogram | 首次 token 時間(秒)的直方圖。 |
推測性解碼指標¶
| 指標名稱 | 型別 | 描述 |
|---|---|---|
vllm:spec_decode_num_accepted_tokens | 計數器 | 接受的 token 數。 |
vllm:spec_decode_num_accepted_tokens_per_pos | 計數器 | 每個草稿位置接受的 token 數。 |
vllm:spec_decode_num_draft_tokens | 計數器 | 草稿 token 數。 |
vllm:spec_decode_num_drafts | 計數器 | 推測性解碼草稿次數。 |
NIXL KV 聯結器指標¶
| 指標名稱 | 型別 | 描述 |
|---|---|---|
vllm:nixl_num_failed_notifications | 計數器 | 失敗的 NIXL KV 快取通知數。 |
vllm:nixl_num_failed_transfers | 計數器 | 失敗的 NIXL KV 快取傳輸數。 |
vllm:nixl_bytes_transferred | Histogram | 每次 NIXL KV 快取傳輸的傳輸位元組數直方圖。 |
vllm:nixl_num_descriptors | Histogram | 每次 NIXL KV 快取傳輸的描述符數量直方圖。 |
vllm:nixl_post_time_seconds | Histogram | NIXL KV 快取傳輸的傳輸後時間直方圖。 |
vllm:nixl_xfer_time_seconds | Histogram | NIXL KV 快取傳輸的傳輸持續時間直方圖。 |
棄用策略¶
注意:當指標在 X.Y 版本中被棄用時,它們將在 X.Y+1 版本中隱藏,但可以使用 --show-hidden-metrics-for-version=X.Y 逃生艙重新啟用,然後在 X.Y+2 版本中被移除。