跳到內容

摘要

重要

許多解碼器語言模型現在可以使用 Transformers 模型後端 自動載入,而無需在 vLLM 中實現它們。請先嚐試 vllm serve <model> 是否有效!

vLLM 模型是專門的 PyTorch 模型,它們利用各種 特性 來最佳化其效能。

將模型整合到 vLLM 的複雜程度在很大程度上取決於模型的架構。如果模型與 vLLM 中現有模型具有相似的架構,則過程會相當直接。但是,對於包含新運算子(例如,新的注意力機制)的模型,這可能會更復雜。

請閱讀這些頁面以獲取分步指南

提示

如果您在將模型整合到 vLLM 時遇到問題,請隨時在我們的 GitHub 問題 中開啟一個問題,或在我們的 開發者 Slack 上提問。我們很樂意為您提供幫助!