@billxbf: 很高兴发布 Polar,这是我们用于真实世界工具集的智能体强化学习部署基础设施。无论是 Codex、Claude Code、OpenClaw、Herm…
摘要
Polar 是一种智能体强化学习部署基础设施,允许将真实世界的工具集直接用作训练环境,无需修改代码,支持 Codex、Claude Code、OpenClaw 和 Hermes 等模型。
查看缓存全文
缓存时间: 2026/05/27 03:17
激动地发布🌟Polar🌟,这是专为真实场景设计的智能体强化学习部署基础设施。无论是Codex、Claude Code、OpenClaw、Hermes,还是你自研的框架🔥——Polar无需修改代码,直接将你的工具作为训练环境使用。
发现问题,设计工具,访问 https://t.co/cNKMvUqQ54
相似文章
@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗?我们很高兴推出ProRL Agent V2: Polar。A…
NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。
@SergioPaniego:前沿智能体之所以如此出色,部分原因是模型在与其一同交付的同一框架内进行了训练。很高兴看到这…
Sergio Paniego 强调,前沿智能体的性能得益于模型在其部署框架内进行训练。NVIDIA AI 的新工作“Polar: Agentic RL on Any Harness at Scale”能够将 Codex、Claude Code、Qwen Code 或 Pi 等框架转化为强化学习训练环境,而无需修改其内部结构。
观察:每个模型的最佳代理框架将由模型开发者自身提供
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……
Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。
@NousResearch:现在,如果你使用OpenAI模型,你可以将Codex作为Hermes Agent核心工具的运行时,只需轻轻一按即可切换!……
NousResearch宣布Codex运行时与Hermes Agent集成,面向OpenAI模型,让用户能够轻松切换核心工具的运行时。