示例#
vLLM 用法示例集合。所有文件化的示例均使用 docs/source/generate_examples.py 從 examples 中的示例自動生成。
示例
- 離線推理
- 音訊語言
- 基礎
- 使用工具聊天
- CPU 解除安裝 LMCache
- 資料並行
- 解耦預填充
- 解耦預填充 LMCache
- 分散式
- Eagle
- 嵌入 Jina Embeddings V3
- 編碼器-解碼器
- 編碼器-解碼器多模態
- LLM 引擎示例
- 載入分片狀態
- LoRA 量化推理
- Mistral-Small
- MLPSpeculator
- MultiLoRA 推理
- Neuron
- Neuron INT8 量化
- 使用 OpenAI 批次檔案格式的離線推理
- 字首快取
- Prithvi Geospatial MAE
- 效能分析
- vLLM TPU 效能分析
- 可復現性
- RLHF
- RLHF 共址
- RLHF 工具
- 儲存分片狀態
- 簡單效能分析
- 結構化輸出
- Torchrun 示例
- TPU
- 視覺語言
- 視覺語言嵌入
- 視覺語言多影像
- 線上服務
- API 客戶端
- Helm Charts
- Cohere Rerank 客戶端
- 解耦預填充
- Gradio OpenAI 聊天機器人 Web 伺服器
- Gradio Web 伺服器
- Jinaai Rerank 客戶端
- 多節點服務
- OpenAI 聊天完成客戶端
- OpenAI 多模態聊天完成客戶端
- OpenAI 使用工具的聊天完成客戶端
- OpenAI 需要工具的聊天完成客戶端
- OpenAI 結構化輸出聊天完成
- OpenAI 帶推理的結構化輸出聊天完成
- OpenAI 帶推理的工具呼叫聊天完成
- OpenAI 帶推理的聊天完成
- OpenAI 帶推理的流式聊天完成
- OpenAI 多模態聊天嵌入客戶端
- OpenAI 完成客戶端
- OpenAI 交叉編碼器評分
- OpenAI 嵌入客戶端
- OpenAI 池化客戶端
- OpenAI 轉錄客戶端
- 設定 OpenTelemetry POC
- Prometheus 和 Grafana
- 執行叢集
- Sagemaker-Entrypoint
- 其他