跳到內容

vllm bench sweep plot_pareto

JSON 命令列引數

當傳遞 JSON 命令列引數時,以下幾組引數是等效的

  • --json-arg '{"key1": "value1", "key2": {"key3": "value2"}}'
  • --json-arg.key1 value1 --json-arg.key2.key3 value2

此外,列表元素可以使用 + 單獨傳遞

  • --json-arg '{"key4": ["value3", "value4", "value5"]}'
  • --json-arg.key4+ value3 --json-arg.key4+='value4,value5'

引數

--user-count-var

儲存併發使用者數的 result key。如果缺失,則回退到 max_concurrent_requests。

預設值:max_concurrency

--gpu-count-var

儲存 GPU 數量的 result key。如果未提供,則回退到 num_gpus/gpu_count 或 tensor_parallel_size * pipeline_parallel_size。

預設值: None

--label-by

用於標註帕累託前沿點欄位的逗號分隔列表。

預設值:max_concurrency,gpu_count

--dry-run

如果設定,則列印要繪製的圖形而不進行繪製。

預設值: False