Llama Stack
vLLM 也可透過 Llama Stack 獲得。
要安裝 Llama Stack,請執行
pip install llama-stack -q
使用 OpenAI 相容 API 進行推理
然後啟動 Llama Stack 伺服器,並進行以下設定,使其指向您的 vLLM 伺服器
inference:
- provider_id: vllm0
provider_type: remote::vllm
config:
url: http://127.0.0.1:8000
有關此遠端 vLLM 提供程式的更多詳細資訊,請參閱 此指南。
使用嵌入式 vLLM 進行推理
還提供了一個 內聯提供程式。這是使用該方法進行配置的示例
inference:
- provider_type: vllm
config:
model: Llama3.1-8B-Instruct
tensor_parallel_size: 4