@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…

X AI KOLs Following 工具

摘要

TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。

TRL v1.4 发布!令我兴奋的两点: → SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。在 16k 序列长度下运行 Qwen3-14B:显存占用从 58.9 GB 降至 38.9 GB。 → 与 @OpenReward 的一级集成。只需一行代码即可将环境接入 GRPO。 此外:更多聊天模板、MFU 辅助工具等…… https://t.co/PyEdTYNxxf
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/10 22:31

TRL v1.4 发布!让我兴奋的两点:

→ SFT 的块化 NLL 损失。显存占用大幅降低,损失值一致,速度通常更快。Qwen3-14B @ 16k 序列长度:从 58.9 GB 降至 38.9 GB。 → 原生支持 @OpenReward 集成。只需一行代码即可将环境接入 GRPO。 此外:更多聊天模板、MFU 辅助工具…… https://t.co/PyEdTYNxxf

相似文章

TRL v1.0:紧跟领域发展的后训练库

Hugging Face Blog

Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

保持 Token 流动:16 个开源 RL 库的经验教训

Hugging Face Blog

Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。