跳到內容

摘要

重要

現在可以使用 Transformers 後端自動載入許多解碼器語言模型,而無需在 vLLM 中實現它們。請先嚐試 vllm serve <model> 是否有效!

vLLM 模型是專門的 PyTorch 模型,利用各種 特性 來最佳化其效能。

將模型整合到 vLLM 的複雜性在很大程度上取決於模型的架構。如果模型與 vLLM 中現有模型共享相似架構,則過程會相當簡單。然而,對於包含新運算元(例如,一種新的注意力機制)的模型,這可能會更復雜。

請閱讀這些頁面以獲取分步指南

提示

如果您在將模型整合到 vLLM 時遇到問題,請隨時在 GitHub 上提交問題 或在我們的 開發者 Slack 上提問。我們將很樂意為您提供幫助!