跳到內容

分散式部署故障排查

有關一般的故障排除,請參閱 故障排除

驗證節點間 GPU 通訊

啟動 Ray 集群后,請驗證節點間 GPU 到 GPU 的通訊。正確的配置可能很棘手。更多資訊,請參閱 故障排除指令碼。如果需要額外的環境變數進行通訊配置,請將它們附加到 examples/online_serving/run_cluster.sh,例如 -e NCCL_SOCKET_IFNAME=eth0。建議在建立叢集時設定環境變數,因為這些變數會傳播到所有節點。相比之下,在 shell 中設定環境變數只會影響本地節點。更多資訊,請參閱 <https://github.com/vllm-project/vllm/issues/6803)。

沒有可用的節點型別能夠滿足資源請求

即使叢集有足夠的 GPU,也可能出現錯誤訊息 Error: No available node types can fulfill resource request。當節點有多個 IP 地址且 vLLM 無法選擇正確地址時,通常會出現此問題。請透過在 examples/online_serving/run_cluster.sh 中設定 VLLM_HOST_IP(每個節點的值不同)。使用 ray statusray list nodes 驗證所選 IP 地址。更多資訊,請參閱 <https://github.com/vllm-project/vllm/issues/7815)。

Ray 可觀測性

由於規模龐大和複雜性,除錯分散式系統可能具有挑戰性。Ray 提供了一套工具來幫助監控、除錯和最佳化 Ray 應用程式和叢集。有關 Ray 可觀測性的更多資訊,請訪問 官方 Ray 可觀測性文件。有關除錯 Ray 應用程式的更多資訊,請訪問 Ray 除錯指南。有關排查 Kubernetes 叢集的問題,請參閱 官方 KubeRay 故障排除指南