@samsja19: prime-rl 现在可以极快地训练1T参数的MoE模型,每步不到5分钟,约3天完成1000步。为实现这一...
摘要
Prime Intellect 发布了 prime-rl v0.6.0,实现了万亿参数MoE规模的强化学习,每步时间低于5分钟,并优化了推理、训练和推出流程。
查看缓存全文
缓存时间: 2026/06/23 15:52
prime-rl 现在可以以闪电般的速度训练1T参数的MoE模型,每步不到5分钟,即约3天完成1k步。
为此,我们在最新的prime-rl 0.6.0中推出了:
-
推理:wide-ep、fp8推理、llm-d路由器、mooncake、kv缓存CPU卸载
-
训练:fsdp2、deep-ep专家并行、dsa cp、fp8训练、路由器重放
-
代理化部署:重写了部署编排器的核心以提高可扩展性
支持glm5、kimi、nemotron等
prime-rl是开源的,但也经过端到端优化,可在我们的专用RL基础设施和计算层上运行
Prime Intellect (@PrimeIntellect): 今天,我们发布了prime-rl v0.6.0——能够在万亿参数MoE规模上以最高效率进行代理化工作负载下的RL。
我们坚持不懈地优化了RL基础设施。
成果:GLM-5在代理化SWE任务上,上下文长度131k,步长时间低于5分钟。
相似文章
@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…
Prime Intellect发布了prime-rl v0.6.0,支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习,实现低于5分钟的步骤时间,并对异步强化学习进行了优化。
使用 Prime-RL 后训练构建快速准确的智能体(22 分钟阅读)
Ramp 介绍了一项案例研究,利用强化学习后训练构建了 Fast Ask,这是一种专门的电子表格检索智能体,与通用模型相比,它提高了准确性并降低了延迟。
提示缓存,但用于 RL 训练——在长提示/短回复负载上实现 7.5 倍加速
一种面向开源 RL 训练引擎的全新优化技术在训练过程中引入了提示缓存,通过减少冗余计算,在长提示、短回复负载场景下实现了高达 7.5 倍的加速。
@charles_irl: 恰当的后训练强化学习,广泛部署,是迈向未来软件系统能悄然自我改进、适应人类需求的关键一步。
Modal 在其平台上宣布了一个开源的强化学习库,通过可扩展的部署解决后训练强化学习中的基础设施挑战。
@adithya_s_k: 现在,您只需几行代码即可使用 TRL 在 OpenReward 提供的 350+ 个强化学习环境上进行训练
OpenReward 和 TRL 现在支持在超过 350 个强化学习环境中进行训练,只需极少代码。