@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗?我们很高兴推出ProRL Agent V2: Polar。A…

X AI KOLs Timeline 工具

摘要

NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。

想用你自己的模型训练你自己的Claude Code/Codex代理吗?我们很高兴推出ProRL Agent V2: Polar。 作为黑盒智能体强化学习的基础设施,Polar允许你使用任何工具进行训练,无论是OpenClaw、Hermes,还是使用LangChain、Autogen、AG2等框架构建的自定义代理。 查看详情: 代码:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server… 论文:https://arxiv.org/pdf/2605.24220 欢迎来到无需打开黑箱的智能体强化学习世界。
查看原文
查看缓存全文

缓存时间: 2026/05/26 21:14

想要用自己的模型训练你自己的 Claude Code/Codex 智能体?我们很高兴发布 ProRL Agent V2: Polar。这是一个用于黑盒智能体强化学习的基础设施,Polar 让你能够使用任何框架训练智能体,无论是 OpenClaw、Hermes,还是基于 LangChain、Autogen、AG2 等框架构建的自定义智能体。点击这里查看:代码:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server… 论文:https://arxiv.org/pdf/2605.24220 欢迎进入智能体强化学习的世界,无需打开黑盒。

NVIDIA-NeMo/ProRL-Agent-Server 来源:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server

Polar 是一个面向真实世界智能体框架的强化学习执行(rollout)框架。

  1. 框架即环境。 将你的智能体框架直接作为强化学习就绪的环境,无需修改代码。
  2. 智能执行流水线。 借助 Polar 的并行执行分段与运行时池化,节省 GPU 小时数。
  3. 执行即服务。 设计即为服务器模式——与任何训练框架实现异步强化学习扩展

架构概览

执行服务器管理并将客户端请求分发到分布式网关节点,这些节点异步准备运行时、执行智能体、构建轨迹并评估它们。智能体框架由一个代理监听,该代理位于无关的智能体执行进程与推理服务器之间。

安装

🟩 安装执行服务器(Polar):

uv venv  
uv pip install -e .  

🟩 安装推理服务器(SGLang):

uv pip install --prerelease=allow sglang==0.5.10  
bash scripts/patch/patch_sglang.sh  

该补丁在固定的 sglang 版本上应用了必要的 TITO 和提示词 token ID 发射功能。一旦上游支持到位,我们将移除该补丁。vllm 集成正在开发中。

🟩 Polar 与训练器无关。因此,在 Polar 服务器边界内,训练器训练后端的选择非常灵活。目前,我们在 Slime 桥接安装指南 中提供了一个演示用途的 Slime (https://github.com/THUDM/slime) 集成。

🟩 (可选)对于 SWE-bench 官方评估框架:

uv pip install -e ".[swebench]"  

🟩 (可选)要启用 polar 仪表盘 UI,请先构建前端。

cd web && npm install && npm run build  

使用指南

CLI 界面

典型的本地运行使用五个命令。每个命令都使用相同的 topology.yaml

polar serve_rollout -c topology.yaml                # 中央编排器(端口 8080)  
polar serve_gateway -c topology.yaml --node-id      # 每个网关节点一个(端口 8100+)  
polar dashboard -c topology.yaml [--port 8090]      # 可观测性与监控仪表盘  
polar submit -c topology.yaml                       # 提交任务并跟踪  
polar status -c topology.yaml                       # 一次性健康/拓扑检查  

示例

🟩 我们正在为不同任务/模型和多样化硬件配置添加新示例。欢迎贡献!

路线图

Polar 的开发目标是低侵入性和中立性,找到最低的共同祖先,以覆盖和支持多样化的训练和推理框架。

  • 初始发布与技术报告。
  • Slime 桥接与强化学习示例。
  • CUA(VLM / VLA)支持。
  • 更多内置评估器(例如,带文本反馈的自蒸馏)。
  • vLLM 双重推理支持。
  • 更多训练器桥接(NemoRL、VERL 等)。

📖 参考文献

如果您觉得有用,请考虑引用我们的工作:

@article{xu2026polar,  
  title={Polar: Agentic RL on Any Harness at Scale},  
  author={Xu, Binfeng and Zhang, Hao and Zhang, Shaokun and Han, Songyang and Liu, Mingjie and Hu, Jian and Diao, Shizhe and Jin, Zhenghui and Zou, Yunheng and Demoret, Michael and Kautz, Jan and Dong, Yi},  
  journal={arXiv preprint arXiv:2605.24220},  
  year={2026}  
}  
@article{zhang2026prorl,  
  title={ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents},  
  author={Zhang, Hao and Liu, Mingjie and Zhang, Shaokun and Han, Songyang and Hu, Jian and Jin, Zhenghui and Zhang, Yuchi and Diao, Shizhe and Lu, Ximing and Xu, Binfeng and others},  
  journal={arXiv preprint arXiv:2603.18815},  
  year={2026}  
}  

Binfeng Xu (@billxbf):
很高兴发布 🌟Polar🌟,我们的智能体强化学习执行基础设施,适用于真实世界的框架。无论是 Codex、Claude Code、OpenClaw、Hermes,还是你自己构建的 🔥——Polar 直接将你的框架作为训练环境,无需修改代码。

发现问题,设计框架,然后…

相似文章