基於人類反饋的強化學習¶ 基於人類反饋的強化學習(RLHF)是一種利用人類生成的偏好資料來微調語言模型的技術,旨在使模型輸出與期望行為對齊。 vLLM 可用於生成 RLHF 的補全內容。實現這一點的一些方法包括使用 TRL、OpenRLHF、verl 和 unsloth 等庫。 如果您不想使用現有庫,請參閱以下基本示例以開始使用 訓練和推理過程位於獨立的 GPU 上(受 OpenRLHF 啟發) 訓練和推理過程使用 Ray 共存於同一 GPU 上 使用 vLLM 執行 RLHF 的實用程式 請參閱以下展示如何將 vLLM 用於 GRPO 的 notebook 使用 Unsloth + vLLM 進行 Qwen-3 4B GRPO