@QGallouedec：TRL v1.4 发布！令我兴奋的两点：→ SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。Qwen…

X AI KOLs Following 2026/05/09 00:17 工具

trl sft grpo openai-rewards qwen gpu-optimization

摘要

TRL v1.4 发布，该版本为 SFT 引入分块 NLL 损失以降低显存占用，并实现与 OpenReward 的一级集成以支持 GRPO。

TRL v1.4 发布！令我兴奋的两点： → SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。在 16k 序列长度下运行 Qwen3-14B：显存占用从 58.9 GB 降至 38.9 GB。 → 与 @OpenReward 的一级集成。只需一行代码即可将环境接入 GRPO。此外：更多聊天模板、MFU 辅助工具等…… https://t.co/PyEdTYNxxf

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/10 22:31

TRL v1.4 发布！让我兴奋的两点：

→ SFT 的块化 NLL 损失。显存占用大幅降低，损失值一致，速度通常更快。Qwen3-14B @ 16k 序列长度：从 58.9 GB 降至 38.9 GB。 → 原生支持 @OpenReward 集成。只需一行代码即可将环境接入 GRPO。此外：更多聊天模板、MFU 辅助工具…… https://t.co/PyEdTYNxxf

@QGallouedec：TRL v1.4 发布！令我兴奋的两点：→ SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。Qwen…

相似文章

TRL v1.0：紧跟领域发展的后训练库

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

保持 Token 流动：16 个开源 RL 库的经验教训

@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布，我们还没完成训练，社区就已经在跑首日预览版了。N…

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

提交意见反馈