跳到內容

vLLM

人類反饋強化學習

基於人類反饋的強化學習¶

基於人類反饋的強化學習（RLHF）是一種利用人類生成的偏好資料來微調語言模型的技術，旨在使模型輸出與期望行為對齊。

vLLM 可用於生成 RLHF 的補全內容。實現這一點的一些方法包括使用 TRL、OpenRLHF、verl 和 unsloth 等庫。

如果您不想使用現有庫，請參閱以下基本示例以開始使用

請參閱以下展示如何將 vLLM 用於 GRPO 的 notebook

使用 Unsloth + vLLM 進行 Qwen-3 4B GRPO