@samsja19: prime-rl 现在可以极快地训练1T参数的MoE模型,每步不到5分钟,约3天完成1000步。为实现这一...

X AI KOLs Following 工具

摘要

Prime Intellect 发布了 prime-rl v0.6.0,实现了万亿参数MoE规模的强化学习,每步时间低于5分钟,并优化了推理、训练和推出流程。

prime-rl 现在可以极快地训练1T参数的MoE模型,每步不到5分钟,约3天完成1000步 为了实现这一目标,我们在最新的 prime-rl 0.6.0 中推出了: * 推理:wide-ep、fp8推理、llm-d路由器、mooncake、KV缓存CPU卸载 * 训练:fsdp2、deep-ep专家并行、dsa cp、fp8训练、路由器重放 * 智能体推出:我们重写了推出编排器的核心以实现更好的可扩展性 支持glm5、kimi、nemotron等模型 prime-rl 是开源的,但也经过端到端优化,可在我们专用的RL基础设施和计算层上运行
查看原文
查看缓存全文

缓存时间: 2026/06/23 15:52

prime-rl 现在可以以闪电般的速度训练1T参数的MoE模型,每步不到5分钟,即约3天完成1k步。

为此,我们在最新的prime-rl 0.6.0中推出了:

  • 推理:wide-ep、fp8推理、llm-d路由器、mooncake、kv缓存CPU卸载

  • 训练:fsdp2、deep-ep专家并行、dsa cp、fp8训练、路由器重放

  • 代理化部署:重写了部署编排器的核心以提高可扩展性

支持glm5、kimi、nemotron等

prime-rl是开源的,但也经过端到端优化,可在我们的专用RL基础设施和计算层上运行

Prime Intellect (@PrimeIntellect): 今天,我们发布了prime-rl v0.6.0——能够在万亿参数MoE规模上以最高效率进行代理化工作负载下的RL。

我们坚持不懈地优化了RL基础设施。

成果:GLM-5在代理化SWE任务上,上下文长度131k,步长时间低于5分钟。

相似文章