BentoML¶

BentoML 允許您使用 vLLM 作為後端部署大型語言模型 (LLM) 伺服器，該伺服器公開與 OpenAI 相容的端點。您可以將模型本地部署，或將其容器化為符合 OCI 標準的映象，並將其部署在 Kubernetes 上。

有關詳細資訊，請參閱 BentoML 文件中的教程 vLLM 推理。