Cloud TPU 設定¶
本指南提供有關設定和配置 Google Cloud TPU 以與 tpu-inference 配合使用資訊。
TPU 版本和拓撲結構¶
張量處理單元 (TPU) 是 Google 定製開發的專用積體電路 (ASIC),用於加速機器學習工作負載。TPU 有不同版本,每個版本都有不同的硬體規格。有關 TPU 的更多資訊,請參閱 TPU 系統架構。
以下 TPU 版本與 tpu-inference 相容
推薦¶
實驗性¶
這些 TPU 版本允許您配置 TPU 晶片的物理佈局。這可以提高吞吐量和網路效能。有關更多資訊,請參閱
配額和定價¶
要使用 Cloud TPU,您的 Google Cloud 專案需要獲得 TPU 配額。有關更多資訊,請參閱 TPU 配額。
有關 TPU 定價資訊,請參閱 Cloud TPU 定價。
您的 TPU VM 可能需要額外的持久儲存。有關更多資訊,請參閱 Cloud TPU 資料儲存選項。
配置 Cloud TPU¶
您可以使用 Cloud TPU API 或 佇列資源 API(推薦)來配置 Cloud TPU。本節將介紹如何使用佇列資源 API 建立 TPU。
使用佇列資源 API 配置 Cloud TPU¶
使用以下命令配置 Cloud TPU。請將所有大寫字母的引數替換為您自己的值。
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
--node-id TPU_NAME \
--project PROJECT_ID \
--zone ZONE \
--accelerator-type ACCELERATOR_TYPE \
--runtime-version RUNTIME_VERSION \
--service-account SERVICE_ACCOUNT
| 引數名稱 | 描述 |
|---|---|
| QUEUED_RESOURCE_ID | 佇列資源請求的使用者分配 ID。 |
| TPU_NAME | TPU 的使用者分配名稱,該名稱在佇列資源請求分配時建立。 |
| PROJECT_ID | 您的 Google Cloud 專案 |
| ZONE | 您要在其中建立 Cloud TPU 的 Google Cloud 區域。您使用的值取決於您使用的 TPU 版本。有關更多資訊,請參閱 TPU 區域和可用區 |
| ACCELERATOR_TYPE | 指定 TPU 版本,例如 v5litepod-4 指定具有 4 個核心的 v5e TPU,v6e-1 指定具有 1 個核心的 v6e TPU。有關更多資訊,請參閱 TPU 版本。 |
| RUNTIME_VERSION | 要使用的 TPU VM 執行時版本。例如,使用 v2-alpha-tpuv6e 來使用載入了一個或多個 v6e TPU 的 VM。有關更多資訊,請參閱 TPU 軟體版本 |
| SERVICE_ACCOUNT | 您的服務賬號的電子郵件地址。您可以在 IAM Cloud Console 的“服務賬號”下找到它。例如:tpu-service-account@<your_project_ID>.iam.gserviceaccount.com |
透過 SSH 連線到您的 TPU VM
注意
配置 TPU 的 RUNTIME_VERSION(“TPU 軟體版本”)時,請參考 TPU VM 映象相容性矩陣,確保其與您選擇的 TPU 代系匹配。使用不相容的版本可能會導致 vLLM 無法正常執行。