标签
TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。
Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。
Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。