摘要¶
重要
許多解碼器語言模型現在可以使用 Transformers 模型後端 自動載入,而無需在 vLLM 中實現它們。請先嚐試 vllm serve <model> 是否有效!
vLLM 模型是專門的 PyTorch 模型,它們利用各種 特性 來最佳化其效能。
將模型整合到 vLLM 的複雜程度在很大程度上取決於模型的架構。如果模型與 vLLM 中現有模型具有相似的架構,則過程會相當直接。但是,對於包含新運算子(例如,新的注意力機制)的模型,這可能會更復雜。
請閱讀這些頁面以獲取分步指南