trl

#trl

@QGallouedec：TRL v1.4 发布！令我兴奋的两点：→ SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。Qwen…

X AI KOLs Following ↗ · 2天前缓存

TRL v1.4 发布，该版本为 SFT 引入分块 NLL 损失以降低显存占用，并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞

#trl

Hugging Face Blog ↗ · 2026-03-31 缓存

Hugging Face 发布 TRL v1.0，这是其训练后库的重大更新，将其从一个研究代码库转变为稳定、生产就绪的工具，支持 PPO 和 DPO 等超过 75 种训练方法。

0 人收藏 0 人点赞

#trl

Hugging Face Blog ↗ · 2026-03-10 缓存

Hugging Face 发布了对 16 个开源强化学习库的全面分析，研究异步 RL 训练的架构模式，并为 TRL 的异步训练器设计经验教训，以解决生成瓶颈和权重同步挑战。

0 人收藏 0 人点赞