Transformer 強化學習¶

Transformer 強化學習 (TRL) 是一個全棧庫，提供一套工具，用於使用監督微調 (SFT)、組相對策略最佳化 (GRPO)、直接偏好最佳化 (DPO)、獎勵建模等方法來訓練 Transformer 語言模型。該庫與 🤗 transformers 整合。

GRPO 或線上 DPO 等線上方法需要模型生成補全。vLLM 可用於生成這些補全！

有關更多資訊，請參閱 TRL 文件中的指南 vLLM 用於線上方法中的快速生成。

資訊

有關可以提供給這些線上方法配置的 use_vllm 標誌的更多資訊，請參閱：- trl.GRPOConfig.use_vllm - trl.OnlineDPOConfig.use_vllm