BentoML¶ BentoML 允許您使用 vLLM 作為後端部署大型語言模型 (LLM) 伺服器,該伺服器公開與 OpenAI 相容的端點。您可以將模型本地部署,或將其容器化為符合 OCI 標準的映象,並將其部署在 Kubernetes 上。 有關詳細資訊,請參閱 BentoML 文件中的教程 vLLM 推理。