跳到內容

安裝

本指南提供安裝和執行 tpu-inference 的說明。

有三種安裝 tpu-inference 的方法

  1. 使用 pip 安裝
  2. 使用 Docker 執行
  3. 從原始碼安裝

使用 pip 安裝

  1. 建立工作目錄

    mkdir ~/work-dir
    cd ~/work-dir
    
  2. 設定 Python 虛擬環境

    python3.12 -m venv vllm_env --symlinks
    source vllm_env/bin/activate
    
  3. 使用以下命令使用 pip 安裝 vllm-tpu

    pip install vllm-tpu
    

使用 Docker 執行

包含 --privileged--net=host--shm-size=150gb 選項以啟用 TPU 互動和共享記憶體。

export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
    -v /dev/shm:/dev/shm \
    --shm-size 150gb \
    -p 8000:8000 \
    --entrypoint /bin/bash ${DOCKER_URI}

從原始碼安裝

出於除錯或開發目的,您可以從原始碼安裝 tpu-inferencetpu-inferencevllm 的一個外掛,因此您需要同時從原始碼安裝兩者。

  1. 安裝系統依賴

    sudo apt-get update && sudo apt-get install -y libopenblas-base libopenmpi-dev libomp-dev
    
  2. 克隆 vllmtpu-inference 倉庫

    git clone https://github.com/vllm-project/vllm.git
    git clone https://github.com/vllm-project/tpu-inference.git
    
  3. 設定 Python 虛擬環境

    python3.12 -m venv vllm_env --symlinks
    source vllm_env/bin/activate
    
  4. 從原始碼安裝 vllm,目標是 TPU 裝置

    cd vllm
    pip install -r requirements/tpu.txt
    VLLM_TARGET_DEVICE="tpu" pip install -e .
    cd ..
    
  5. 從原始碼安裝 tpu-inference

    cd tpu-inference
    pip install -e .
    cd ..