LlamaIndex¶
vLLM 也可透過 LlamaIndex 獲取。
要安裝 LlamaIndex,請執行
要在單個或多個 GPU 上執行推理,請使用 llamaindex
中的 Vllm
類。
from llama_index.llms.vllm import Vllm
llm = Vllm(
model="microsoft/Orca-2-7b",
tensor_parallel_size=4,
max_new_tokens=100,
vllm_kwargs={"swap_space": 1, "gpu_memory_utilization": 0.5},
)
有關更多詳細資訊,請參閱此教程。