安裝¶

本指南提供安裝和執行 tpu-inference 的說明。

有三種安裝 tpu-inference 的方法

使用 pip 安裝
使用 Docker 執行
從原始碼安裝

使用 pip 安裝¶

建立工作目錄
```
mkdir ~/work-dir
cd ~/work-dir
```

設定 Python 虛擬環境

python3.12 -m venv vllm_env --symlinks
source vllm_env/bin/activate

使用以下命令使用 pip 安裝 vllm-tpu
```
pip install vllm-tpu
```

使用 Docker 執行¶

包含 --privileged、--net=host 和 --shm-size=150gb 選項以啟用 TPU 互動和共享記憶體。

export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
    -v /dev/shm:/dev/shm \
    --shm-size 150gb \
    -p 8000:8000 \
    --entrypoint /bin/bash ${DOCKER_URI}

從原始碼安裝¶

出於除錯或開發目的，您可以從原始碼安裝 tpu-inference。tpu-inference 是 vllm 的一個外掛，因此您需要同時從原始碼安裝兩者。

安裝系統依賴

sudo apt-get update && sudo apt-get install -y libopenblas-base libopenmpi-dev libomp-dev

克隆 vllm 和 tpu-inference 倉庫

git clone https://github.com/vllm-project/vllm.git
git clone https://github.com/vllm-project/tpu-inference.git

設定 Python 虛擬環境

python3.12 -m venv vllm_env --symlinks
source vllm_env/bin/activate

從原始碼安裝 vllm，目標是 TPU 裝置

cd vllm
pip install -r requirements/tpu.txt
VLLM_TARGET_DEVICE="tpu" pip install -e .
cd ..

從原始碼安裝 tpu-inference

cd tpu-inference
pip install -e .
cd ..