@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…
摘要
TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。
查看缓存全文
缓存时间: 2026/05/10 22:31
TRL v1.4 发布!让我兴奋的两点:
→ SFT 的块化 NLL 损失。显存占用大幅降低,损失值一致,速度通常更快。Qwen3-14B @ 16k 序列长度:从 58.9 GB 降至 38.9 GB。 → 原生支持 @OpenReward 集成。只需一行代码即可将环境接入 GRPO。 此外:更多聊天模板、MFU 辅助工具…… https://t.co/PyEdTYNxxf
相似文章
TRL v1.0:紧跟领域发展的后训练库
Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。
DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。
保持 Token 流动:16 个开源 RL 库的经验教训
Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。
@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布,我们还没完成训练,社区就已经在跑首日预览版了。N…
Z-lab 发布适用于 Qwen3.6-35B-A3B 的 DFlash 模型微调/压缩技术,训练已全部完成,权重现已在 GitHub 和 HuggingFace 上提供。
8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱
作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。