摘要¶

重要

現在可以使用 Transformers 後端自動載入許多解碼器語言模型，而無需在 vLLM 中實現它們。請先嚐試 vllm serve <model> 是否有效！

vLLM 模型是專門的 PyTorch 模型，利用各種特性來最佳化其效能。

將模型整合到 vLLM 的複雜性在很大程度上取決於模型的架構。如果模型與 vLLM 中現有模型共享相似架構，則過程會相當簡單。然而，對於包含新運算元（例如，一種新的注意力機制）的模型，這可能會更復雜。

請閱讀這些頁面以獲取分步指南

提示

如果您在將模型整合到 vLLM 時遇到問題，請隨時在 GitHub 上提交問題或在我們的開發者 Slack 上提問。我們將很樂意為您提供幫助！