跳到內容

從人類反饋中強化學習

從人類反饋中強化學習 (RLHF) 是一種利用人類生成的偏好資料來微調語言模型的技術,以使模型輸出與期望的行為保持一致。vLLM 可用於為 RLHF 生成補全。

以下開源 RL 庫使用 vLLM 進行快速 rollout(按字母順序排列,不詳盡)

如果您不想使用現有庫,請參閱以下基本示例以開始

參閱以下 Notebook,瞭解如何將 vLLM 用於 GRPO