跳到內容

Llama Stack

vLLM 也可透過 Llama Stack 獲取。

要安裝 Llama Stack,請執行

pip install llama-stack -q

使用 OpenAI 相容 API 進行推理

然後啟動 Llama Stack 伺服器,指向您的 vLLM 伺服器,並使用以下配置

inference:
  - provider_id: vllm0
    provider_type: remote::vllm
    config:
      url: http://127.0.0.1:8000

請參閱 本指南,以瞭解有關此遠端 vLLM 提供程式的更多詳細資訊。

透過嵌入式 vLLM 進行推理

一個 內聯 vLLM 提供程式 也可用。這是使用該方法的一個配置示例

inference
  - provider_type: vllm
    config:
      model: Llama3.1-8B-Instruct
      tensor_parallel_size: 4