@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗?我们很高兴推出ProRL Agent V2: Polar。A…
摘要
NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。
查看缓存全文
缓存时间: 2026/05/26 21:14
想要用自己的模型训练你自己的 Claude Code/Codex 智能体?我们很高兴发布 ProRL Agent V2: Polar。这是一个用于黑盒智能体强化学习的基础设施,Polar 让你能够使用任何框架训练智能体,无论是 OpenClaw、Hermes,还是基于 LangChain、Autogen、AG2 等框架构建的自定义智能体。点击这里查看:代码:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server… 论文:https://arxiv.org/pdf/2605.24220 欢迎进入智能体强化学习的世界,无需打开黑盒。
NVIDIA-NeMo/ProRL-Agent-Server 来源:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server
Polar 是一个面向真实世界智能体框架的强化学习执行(rollout)框架。
- 框架即环境。 将你的智能体框架直接作为强化学习就绪的环境,无需修改代码。
- 智能执行流水线。 借助 Polar 的并行执行分段与运行时池化,节省 GPU 小时数。
- 执行即服务。 设计即为服务器模式——与任何训练框架实现异步强化学习扩展。
架构概览
执行服务器管理并将客户端请求分发到分布式网关节点,这些节点异步准备运行时、执行智能体、构建轨迹并评估它们。智能体框架由一个代理监听,该代理位于无关的智能体执行进程与推理服务器之间。
安装
🟩 安装执行服务器(Polar):
uv venv
uv pip install -e .
🟩 安装推理服务器(SGLang):
uv pip install --prerelease=allow sglang==0.5.10
bash scripts/patch/patch_sglang.sh
该补丁在固定的 sglang 版本上应用了必要的 TITO 和提示词 token ID 发射功能。一旦上游支持到位,我们将移除该补丁。vllm 集成正在开发中。
🟩 Polar 与训练器无关。因此,在 Polar 服务器边界内,训练器和训练后端的选择非常灵活。目前,我们在 Slime 桥接安装指南 中提供了一个演示用途的 Slime (https://github.com/THUDM/slime) 集成。
🟩 (可选)对于 SWE-bench 官方评估框架:
uv pip install -e ".[swebench]"
🟩 (可选)要启用 polar 仪表盘 UI,请先构建前端。
cd web && npm install && npm run build
使用指南
- ⭐ 选择你的智能体框架:选择内置框架,或使用带有包装智能体的通用 shell 框架。
- 🚀 轨迹构建与评估:查看 构建器 和 评估器 指南,了解注册的策略。
- 🔧 部署拓扑:配置 Polar 服务。
- ▶️ 请求执行:通过执行 API 提交客户端任务。
CLI 界面
典型的本地运行使用五个命令。每个命令都使用相同的 topology.yaml。
polar serve_rollout -c topology.yaml # 中央编排器(端口 8080)
polar serve_gateway -c topology.yaml --node-id # 每个网关节点一个(端口 8100+)
polar dashboard -c topology.yaml [--port 8090] # 可观测性与监控仪表盘
polar submit -c topology.yaml # 提交任务并跟踪
polar status -c topology.yaml # 一次性健康/拓扑检查
示例
- 计算器:最小烟雾测试。
- 数星星:VLM 的最小测试。
- SWE-bench 验证版:对 SWE-bench 验证任务的基准风格评估。
- SWE-Gym Slime GRPO:连接 Polar 执行与 Slime 的训练路径。
🟩 我们正在为不同任务/模型和多样化硬件配置添加新示例。欢迎贡献!
路线图
Polar 的开发目标是低侵入性和中立性,找到最低的共同祖先,以覆盖和支持多样化的训练和推理框架。
- 初始发布与技术报告。
- Slime 桥接与强化学习示例。
- CUA(VLM / VLA)支持。
- 更多内置评估器(例如,带文本反馈的自蒸馏)。
- vLLM 双重推理支持。
- 更多训练器桥接(NemoRL、VERL 等)。
📖 参考文献
如果您觉得有用,请考虑引用我们的工作:
@article{xu2026polar,
title={Polar: Agentic RL on Any Harness at Scale},
author={Xu, Binfeng and Zhang, Hao and Zhang, Shaokun and Han, Songyang and Liu, Mingjie and Hu, Jian and Diao, Shizhe and Jin, Zhenghui and Zou, Yunheng and Demoret, Michael and Kautz, Jan and Dong, Yi},
journal={arXiv preprint arXiv:2605.24220},
year={2026}
}
@article{zhang2026prorl,
title={ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents},
author={Zhang, Hao and Liu, Mingjie and Zhang, Shaokun and Han, Songyang and Hu, Jian and Jin, Zhenghui and Zhang, Yuchi and Diao, Shizhe and Lu, Ximing and Xu, Binfeng and others},
journal={arXiv preprint arXiv:2603.18815},
year={2026}
}
Binfeng Xu (@billxbf):
很高兴发布 🌟Polar🌟,我们的智能体强化学习执行基础设施,适用于真实世界的框架。无论是 Codex、Claude Code、OpenClaw、Hermes,还是你自己构建的 🔥——Polar 直接将你的框架作为训练环境,无需修改代码。发现问题,设计框架,然后…
相似文章
@billxbf: 很高兴发布 Polar,这是我们用于真实世界工具集的智能体强化学习部署基础设施。无论是 Codex、Claude Code、OpenClaw、Herm…
Polar 是一种智能体强化学习部署基础设施,允许将真实世界的工具集直接用作训练环境,无需修改代码,支持 Codex、Claude Code、OpenClaw 和 Hermes 等模型。
@SergioPaniego:前沿智能体之所以如此出色,部分原因是模型在与其一同交付的同一框架内进行了训练。很高兴看到这…
Sergio Paniego 强调,前沿智能体的性能得益于模型在其部署框架内进行训练。NVIDIA AI 的新工作“Polar: Agentic RL on Any Harness at Scale”能够将 Codex、Claude Code、Qwen Code 或 Pi 等框架转化为强化学习训练环境,而无需修改其内部结构。
@svpino: 现在你可以让 Claude Code 与 Codex 及任何其他代理自主协作。这将会打破互联网……
现在你可以让 Claude Code 与 Codex 及其他任何代理自主协作,实现AI编码任务中的多代理合作。
@JinjingLiang: 想抛弃Claude?有人刚发布了'Claude Agent View'的任意代理版本。用Codex、Pi、Droid,随便什么。
Orca 是一个开源 AI 编排工具,让开发者能够在 macOS、Windows 和 Linux 上跨仓库并行运行多个 CLI 代理,如 Claude Code、Codex 和 Gemini。
我从零重建了一个Claude Code风格的编程代理——整个代理循环只有6行代码。20章,约5000行代码,无框架,也支持本地模型
一位开发者分享了一个20章的教程,从头重建了一个Claude Code风格的编程代理,展示了整个代理循环(约6行代码),并支持本地模型和多种LLM API。