摘要¶

重要

許多解碼器語言模型現在可以使用 Transformers 模型後端自動載入，而無需在 vLLM 中實現它們。請先嚐試 vllm serve <model> 是否有效！

vLLM 模型是專門的 PyTorch 模型，它們利用各種特性來最佳化其效能。

將模型整合到 vLLM 的複雜程度在很大程度上取決於模型的架構。如果模型與 vLLM 中現有模型具有相似的架構，則過程會相當直接。但是，對於包含新運算子（例如，新的注意力機制）的模型，這可能會更復雜。

請閱讀這些頁面以獲取分步指南

提示

如果您在將模型整合到 vLLM 時遇到問題，請隨時在我們的 GitHub 問題中開啟一個問題，或在我們的開發者 Slack 上提問。我們很樂意為您提供幫助！