從人類反饋中強化學習¶

從人類反饋中強化學習 (RLHF) 是一種利用人類生成的偏好資料來微調語言模型的技術，以使模型輸出與期望的行為保持一致。vLLM 可用於為 RLHF 生成補全。

以下開源 RL 庫使用 vLLM 進行快速 rollout（按字母順序排列，不詳盡）

如果您不想使用現有庫，請參閱以下基本示例以開始

參閱以下 Notebook，瞭解如何將 vLLM 用於 GRPO