跳到內容

示例

vLLM 的示例分為三個類別

  • 如果您在 Python 程式碼中使用 vLLM,請參閱離線推理部分。
  • 如果您從 HTTP 應用程式或客戶端使用 vLLM,請參閱線上服務部分。
  • 有關使用 vLLM 的一些高階功能(例如 LMCache 或 Tensorizer)的示例,這些功能不特定於上述任一用例,請參閱其他部分。