從人類反饋中強化學習¶
從人類反饋中強化學習 (RLHF) 是一種利用人類生成的偏好資料來微調語言模型的技術,以使模型輸出與期望的行為保持一致。vLLM 可用於為 RLHF 生成補全。
以下開源 RL 庫使用 vLLM 進行快速 rollout(按字母順序排列,不詳盡)
如果您不想使用現有庫,請參閱以下基本示例以開始
參閱以下 Notebook,瞭解如何將 vLLM 用於 GRPO
從人類反饋中強化學習 (RLHF) 是一種利用人類生成的偏好資料來微調語言模型的技術,以使模型輸出與期望的行為保持一致。vLLM 可用於為 RLHF 生成補全。
以下開源 RL 庫使用 vLLM 進行快速 rollout(按字母順序排列,不詳盡)
如果您不想使用現有庫,請參閱以下基本示例以開始
參閱以下 Notebook,瞭解如何將 vLLM 用於 GRPO