離線推理#
離線推理示例演示瞭如何在離線設定中使用 vLLM,在這種設定中,模型會批次查詢預測。我們建議從基礎開始。
示例
- 音訊語言
- 基礎
- 與工具聊天
- CPU 解除安裝 LMCache
- 資料並行
- 解耦預填充
- 解耦預填充 LMCache
- 分散式
- Eagle
- 嵌入 Jina Embeddings V3
- 編碼器-解碼器
- 編碼器-解碼器多模態
- LLM 引擎示例
- 載入分片狀態
- LoRA 與量化推理
- Mistral-Small
- MLPSpeculator
- MultiLoRA 推理
- Neuron
- Neuron INT8 量化
- 使用 OpenAI 批次檔案格式的離線推理
- 字首快取
- Prithvi 地理空間 MAE
- 效能分析
- vLLM TPU 效能分析
- 可重現性
- RLHF
- RLHF 共址
- RLHF 工具
- 儲存分片狀態
- 簡單效能分析
- 結構化輸出
- Torchrun 示例
- TPU
- 視覺語言
- 視覺語言嵌入
- 視覺語言多影像