trl

标签

Cards List
#trl

@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…

X AI KOLs Following · 2天前 缓存

TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞
#trl

TRL v1.0:紧跟领域发展的后训练库

Hugging Face Blog · 2026-03-31 缓存

Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。

0 人收藏 0 人点赞
#trl

保持 Token 流动:16 个开源 RL 库的经验教训

Hugging Face Blog · 2026-03-10 缓存

Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈