BentoML¶

BentoML 允許您部署一個以 vLLM 作為後端的 LLM（大型語言模型）伺服器，該伺服器公開了與 OpenAI 相容的端點。您可以在本地提供模型服務，或者將其容器化為符合 OCI 標準的映象並部署到 Kubernetes 上。

欲瞭解詳情，請參閱 BentoML 文件中的教程vLLM 推理。