@charles_irl: 祝贺我的同事 @nanjiangwill 将这个重要技术合并到 slime 中!
摘要
增量压缩权重同步技术已合并到 slime 中,实现 Megatron ↔ SGLang 分离式部署的无损增量同步,增强大规模强化学习。
查看缓存全文
缓存时间: 2026/05/31 02:32
恭喜我的同事 @nanjiangwill 成功将这一重要技术合并到 slime 中!
slime (@slime_framework): @FireworksAI_HQ 和 @cursor_ai 强调了为什么在前沿规模的强化学习中,增量压缩权重同步至关重要。
slime 将这一能力带到了开源社区:用于 Megatron ↔ SGLang 解耦的无损增量同步——传输增量,而非完整检查点。
这是朝着完全 … 迈出的又一步。
相似文章
@nanjiangwill: 在 @modal,我们正在努力确保开源强化学习框架具备训练前沿开放权重模型所需的所有技术…
Modal 正在通过增量压缩和其他技术增强开源强化学习框架,以训练前沿开放权重模型。slime 框架将无损增量同步引入分解式训练环境。
@vivek_2332: 新博客:异步强化学习中的权重同步。权重同步最近变得快得多,即使在前沿模型上也低于2秒…
一篇探讨异步强化学习中权重同步技术的博客文章,涵盖了不同框架下传输和负载的权衡。
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。
@ying11231:在TPU上令人印象深刻的性能。
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…
TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。