跳到內容

基於人類反饋的強化學習

基於人類反饋的強化學習(RLHF)是一種利用人類生成的偏好資料來微調語言模型的技術,旨在使模型輸出與期望行為對齊。

vLLM 可用於生成 RLHF 的補全內容。實現這一點的一些方法包括使用 TRLOpenRLHFverlunsloth 等庫。

如果您不想使用現有庫,請參閱以下基本示例以開始使用

請參閱以下展示如何將 vLLM 用於 GRPO 的 notebook