跳到內容

BentoML

BentoML 允許您部署一個以 vLLM 作為後端的 LLM(大型語言模型)伺服器,該伺服器公開了與 OpenAI 相容的端點。您可以在本地提供模型服務,或者將其容器化為符合 OCI 標準的映象並部署到 Kubernetes 上。

欲瞭解詳情,請參閱 BentoML 文件中的教程vLLM 推理