跳到內容

生產指標

vLLM 暴露了許多可用於監控系統執行狀況的指標。這些指標透過 vLLM OpenAI 相容 API 伺服器上的 /metrics 端點暴露。

您可以使用 Python 或 Docker 啟動伺服器

vllm serve unsloth/Llama-3.2-1B-Instruct

然後查詢端點以獲取伺服器的最新指標

輸出
$ curl http://0.0.0.0:8000/metrics

# HELP vllm:iteration_tokens_total Histogram of number of tokens per engine_step.
# TYPE vllm:iteration_tokens_total histogram
vllm:iteration_tokens_total_sum{model_name="unsloth/Llama-3.2-1B-Instruct"} 0.0
vllm:iteration_tokens_total_bucket{le="1.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="8.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="16.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="32.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="64.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="128.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="256.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="512.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
...

公開的指標如下

通用指標

指標名稱 型別 描述
vllm:corrupted_requests 計數器 損壞的請求,以 logits 中包含 NaN 的總請求數衡量。
vllm:external_prefix_cache_hits 計數器 來自 KV 聯結器跨例項快取共享的外部字首快取命中次數,以快取的 token 數衡量。
vllm:external_prefix_cache_queries 計數器 來自 KV 聯結器跨例項快取共享的外部字首快取查詢次數,以查詢的 token 數衡量。
vllm:generation_tokens 計數器 已處理的生成 token 數。
vllm:mm_cache_hits 計數器 多模態快取命中次數,以快取的專案數衡量。
vllm:mm_cache_queries 計數器 多模態快取查詢次數,以查詢的專案數衡量。
vllm:num_preemptions 計數器 引擎搶佔的總次數。
vllm:prefix_cache_hits 計數器 字首快取命中次數,以快取的 token 數衡量。
vllm:prefix_cache_queries 計數器 字首快取查詢次數,以查詢的 token 數衡量。
vllm:prompt_tokens 計數器 已處理的預填充 token 數。
vllm:request_success 計數器 成功處理的請求數。
vllm:engine_sleep_state Gauge 引擎睡眠狀態;喚醒 = 0 表示引擎正在睡眠;喚醒 = 1 表示引擎已喚醒;權重已解除安裝 = 1 表示睡眠級別 1;全部丟棄 = 1 表示睡眠級別 2。
vllm:kv_cache_usage_perc Gauge KV 快取使用率。1 表示 100% 使用。
vllm:lora_requests_info Gauge Lora 請求的執行統計資訊。
vllm:num_requests_running Gauge 模型執行批次中的請求數。
vllm:num_requests_waiting Gauge 等待處理的請求數。
vllm:e2e_request_latency_seconds Histogram 端到端請求延遲(秒)的直方圖。
vllm:inter_token_latency_seconds Histogram token 間延遲(秒)的直方圖。
vllm:iteration_tokens_total Histogram 每個引擎步驟的 token 數直方圖。
vllm:kv_block_idle_before_evict_seconds Histogram KV 快取塊被驅逐前的空閒時間直方圖。取樣指標(透過 --kv-cache-metrics-sample 控制)。
vllm:kv_block_lifetime_seconds Histogram KV 快取塊從分配到驅逐的生命週期直方圖。取樣指標(透過 --kv-cache-metrics-sample 控制)。
vllm:kv_block_reuse_gap_seconds Histogram 連續 KV 快取塊訪問之間的時間間隔直方圖。僅記錄最近的訪問(環形緩衝區)。取樣指標(透過 --kv-cache-metrics-sample 控制)。
vllm:request_decode_time_seconds Histogram 請求的 DECODE 階段花費的時間直方圖。
vllm:request_generation_tokens Histogram 已處理的生成 token 數。
vllm:request_inference_time_seconds Histogram 請求的 RUNNING 階段花費的時間直方圖。
vllm:request_max_num_generation_tokens Histogram 請求的最大生成 token 數直方圖。
vllm:request_params_max_tokens Histogram max_tokens 請求引數直方圖。
vllm:request_params_n Histogram n 請求引數直方圖。
vllm:request_prefill_kv_computed_tokens Histogram 預填充期間新計算的 KV token 數直方圖(不包括快取的 token)。
vllm:request_prefill_time_seconds Histogram 請求的 PREFILL 階段花費的時間直方圖。
vllm:request_prompt_tokens Histogram 已處理的預填充 token 數。
vllm:request_queue_time_seconds Histogram 請求的 WAITING 階段花費的時間直方圖。
vllm:request_time_per_output_token_seconds Histogram 每個請求的 time_per_output_token_seconds 直方圖。
vllm:time_per_output_token_seconds Histogram 每秒輸出 token 時間的直方圖。已棄用:請改用 vllm:inter_token_latency_seconds。
vllm:time_to_first_token_seconds Histogram 首次 token 時間(秒)的直方圖。

推測性解碼指標

指標名稱 型別 描述
vllm:spec_decode_num_accepted_tokens 計數器 接受的 token 數。
vllm:spec_decode_num_accepted_tokens_per_pos 計數器 每個草稿位置接受的 token 數。
vllm:spec_decode_num_draft_tokens 計數器 草稿 token 數。
vllm:spec_decode_num_drafts 計數器 推測性解碼草稿次數。

NIXL KV 聯結器指標

指標名稱 型別 描述
vllm:nixl_num_failed_notifications 計數器 失敗的 NIXL KV 快取通知數。
vllm:nixl_num_failed_transfers 計數器 失敗的 NIXL KV 快取傳輸數。
vllm:nixl_bytes_transferred Histogram 每次 NIXL KV 快取傳輸的傳輸位元組數直方圖。
vllm:nixl_num_descriptors Histogram 每次 NIXL KV 快取傳輸的描述符數量直方圖。
vllm:nixl_post_time_seconds Histogram NIXL KV 快取傳輸的傳輸後時間直方圖。
vllm:nixl_xfer_time_seconds Histogram NIXL KV 快取傳輸的傳輸持續時間直方圖。

棄用策略

注意:當指標在 X.Y 版本中被棄用時,它們將在 X.Y+1 版本中隱藏,但可以使用 --show-hidden-metrics-for-version=X.Y 逃生艙重新啟用,然後在 X.Y+2 版本中被移除。