@samsja19: prime-rl 现在可以极快地训练1T参数的MoE模型，每步不到5分钟，约3天完成1000步。为实现这一...

X AI KOLs Following 2026/06/23 02:57 工具

reinforcement-learning open-source trillion-parameter moe scalable-training prime-rl

摘要

Prime Intellect 发布了 prime-rl v0.6.0，实现了万亿参数MoE规模的强化学习，每步时间低于5分钟，并优化了推理、训练和推出流程。

prime-rl 现在可以极快地训练1T参数的MoE模型，每步不到5分钟，约3天完成1000步为了实现这一目标，我们在最新的 prime-rl 0.6.0 中推出了： * 推理：wide-ep、fp8推理、llm-d路由器、mooncake、KV缓存CPU卸载 * 训练：fsdp2、deep-ep专家并行、dsa cp、fp8训练、路由器重放 * 智能体推出：我们重写了推出编排器的核心以实现更好的可扩展性支持glm5、kimi、nemotron等模型 prime-rl 是开源的，但也经过端到端优化，可在我们专用的RL基础设施和计算层上运行

查看原文

查看缓存全文

缓存时间: 2026/06/23 15:52

prime-rl 现在可以以闪电般的速度训练1T参数的MoE模型，每步不到5分钟，即约3天完成1k步。

为此，我们在最新的prime-rl 0.6.0中推出了：

推理：wide-ep、fp8推理、llm-d路由器、mooncake、kv缓存CPU卸载
训练：fsdp2、deep-ep专家并行、dsa cp、fp8训练、路由器重放
代理化部署：重写了部署编排器的核心以提高可扩展性

支持glm5、kimi、nemotron等

prime-rl是开源的，但也经过端到端优化，可在我们的专用RL基础设施和计算层上运行

Prime Intellect (@PrimeIntellect): 今天，我们发布了prime-rl v0.6.0——能够在万亿参数MoE规模上以最高效率进行代理化工作负载下的RL。

我们坚持不懈地优化了RL基础设施。

成果：GLM-5在代理化SWE任务上，上下文长度131k，步长时间低于5分钟。

@samsja19: prime-rl 现在可以极快地训练1T参数的MoE模型，每步不到5分钟，约3天完成1000步。为实现这一...

相似文章

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

使用 Prime-RL 后训练构建快速准确的智能体（22 分钟阅读）

提示缓存，但用于 RL 训练——在长提示/短回复负载上实现 7.5 倍加速

@charles_irl: 恰当的后训练强化学习，广泛部署，是迈向未来软件系统能悄然自我改进、适应人类需求的关键一步。

@adithya_s_k: 现在，您只需几行代码即可使用 TRL 在 OpenReward 提供的 350+ 个强化学习环境上进行训练

提交意见反馈