線上服務#
線上服務示例演示瞭如何在線上設定中使用 vLLM,在這種設定中,模型被即時查詢以進行預測。
示例
- API 客戶端
- Helm Charts
- Cohere Rerank 客戶端
- 解耦預填充
- Gradio OpenAI 聊天機器人 Web 伺服器
- Gradio Web 伺服器
- Jinaai Rerank 客戶端
- 多節點服務
- OpenAI 聊天完成客戶端
- OpenAI 多模態聊天完成客戶端
- 帶有工具的 OpenAI 聊天完成客戶端
- 帶有必需工具的 OpenAI 聊天完成客戶端
- OpenAI 聊天完成結構化輸出
- 帶有推理的 OpenAI 聊天完成結構化輸出
- 帶有推理的 OpenAI 聊天完成工具呼叫
- 帶有推理的 OpenAI 聊天完成
- 帶有推理流式傳輸的 OpenAI 聊天完成
- OpenAI 多模態聊天嵌入客戶端
- OpenAI 完成客戶端
- OpenAI 交叉編碼器評分
- OpenAI 嵌入客戶端
- OpenAI 池化客戶端
- OpenAI 轉錄客戶端
- 設定 OpenTelemetry POC
- Prometheus 和 Grafana
- 執行叢集
- Sagemaker-Entrypoint