安裝¶
本指南提供安裝和執行 tpu-inference 的說明。
有三種安裝 tpu-inference 的方法
使用 pip 安裝¶
-
建立工作目錄
-
設定 Python 虛擬環境
-
使用以下命令使用
pip安裝 vllm-tpu
使用 Docker 執行¶
包含 --privileged、--net=host 和 --shm-size=150gb 選項以啟用 TPU 互動和共享記憶體。
export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
-v /dev/shm:/dev/shm \
--shm-size 150gb \
-p 8000:8000 \
--entrypoint /bin/bash ${DOCKER_URI}
從原始碼安裝¶
出於除錯或開發目的,您可以從原始碼安裝 tpu-inference。tpu-inference 是 vllm 的一個外掛,因此您需要同時從原始碼安裝兩者。
-
安裝系統依賴
-
克隆
vllm和tpu-inference倉庫 -
設定 Python 虛擬環境
-
從原始碼安裝
vllm,目標是 TPU 裝置 -
從原始碼安裝
tpu-inference