开源社区支持用于智能体强化学习的OpenEnv
摘要
OpenEnv是一个用于创建智能体执行环境的库,旨在通过强化学习训练开源智能体。该库正变得更加开放,其新治理委员会成员包括Meta-PyTorch、Hugging Face、Nvidia等,目标是在模型和框架之间提供通用的协议层。
查看缓存全文
缓存时间: 2026/06/08 15:16
开源社区支持使用 OpenEnv 进行智能体强化学习
来源:https://huggingface.co/blog/openenv-agentic-rl 返回文章列表 (https://huggingface.co/blog)
博客文章的缩略图 (https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/openenv-expansion/banner.png)
OpenEnv 是一个用于创建智能体执行环境的工具,比如终端、浏览器或智能体可以与之交互的任何东西。今天,我们激动地宣布 OpenEnv 将变得更加开放,以让训练智能体的未来更加开源。
从今天起,OpenEnv 将由一个委员会协调,该委员会目前包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 现在位于 huggingface/OpenEnv (https://github.com/huggingface/OpenEnv)
OpenEnv 项目得到了人工智能生态系统中一些领先组织的支持和采用,包括 PyTorch 基金会、vLLM、SkyRL(UCB)、Lightning AI、Axolotl AI、斯坦福扩展智能实验室、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。
为什么我们需要 OpenEnv 来训练开源智能体
像 Claude Code、Codex、OpenClaw 和 Hermes 这样的智能体工具包一直在改进。其改进的一个原因是像 GPT-5.5 和 Opus 4.8 这样的模型被训练使用它们各自的工具包。
我们也希望开源模型能获得这些收益:训练本地模型以有效使用工具包,并通过为特定任务定制模型来节省计算资源。
为什么我们需要(更加)开放
前沿实验室训练的模型和工具包大多配合得天衣无缝。模型被训练使用工具包,并针对其特性进行优化。模型可以在一定程度上泛化到这些工具包之外,但没有什么能比得上训练的效率。
开源强化学习生态系统 (https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/openenv-expansion/diagram.png)
在开源世界里,情况并非如此。开发人员使用任何工具包、任何模型、任何推理引擎,应用于他们重视的任何用例。这对社区来说是基础,但也是一个需要基础设施和工具来应对的挑战。
这就是 OpenEnv 的用武之地。它是一个用于连接工具包、环境和训练器的库,适用于任何模型。要让它持久发展,需要由所有主要利益相关方共同拥有。
一个协议层,而非奖励框架
伴随着治理结构的变更,我们正在明确 OpenEnv 是什么。
在最近的版本中,OpenEnv 已经成为一个 RL 环境的互操作性层。它的工作是标准化环境如何发布、部署以及被智能体使用。它不会规定奖励如何定义或训练循环如何工作。奖励定义、评分标准和训练器特定逻辑属于专门处理这些的库。OpenEnv 是它们都可以插入的通用接口。
在实践中这意味着:
一个接口,多个环境都暴露熟悉的 Gymnasium 风格 API(reset()、step()、state())在客户端/服务器架构上运行。一个支持 OpenEnv 的训练器可以驱动任何兼容的环境,无需定制代码。
熟悉的协议和规范的打包方式。环境通过 HTTP 和 WebSocket 等标准协议提供服务,并使用 Docker 打包。MCP 是一等公民,因此 OpenEnv 环境与 MCP 服务器即时兼容,并且在模拟(训练/评估)和生产模式下表现一致。
跨环境库的互操作性。您可以在不同的生态系统(verifiers、harbor 等)中定义和使用环境,在您选择的基础设施和中心上。OpenEnv 是它们底层的部署和接口层,而不是它们的竞争对手。
下一步计划
在接下来的几个月里,我们将专注于将 OpenEnv 从一个快速增长的项目转变为一个可靠的标准:
- 通过数据集的任务集:将环境任务与 Hugging Face 数据集连接起来,使环境和基准测试能够干净地组合(RFC 006)。
- 外部奖励:允许奖励在您已经使用的任何库中定义,同时 OpenEnv 作为部署层(RFC 007)。
- 持续的工具包集成:对智能体工具包的一等支持。
- 端到端示例:在 TRL、Unsloth 及其他工具中的完整训练和评估演练。
- 自动验证:衡量环境质量及其对模型学习的贡献。这将为社区提供一种可扩展的方式来评估他们的环境并提高质量(想想黑客马拉松吧!)。RFC 008。
参与其中
OpenEnv 在设计上以社区为中心,而且仍处于早期阶段——可能会有些粗糙,请帮助我们打磨它们。查看代码和 RFC:github.com/huggingface/OpenEnv (https://github.com/huggingface/OpenEnv)
感谢所有帮助实现这一转变的人。让我们一起为开源智能体强化学习构建共同的基础。
相似文章
@SergioPaniego: OpenEnv 有了新家:http://github.com/huggingface/OpenEnv… 从今天起,由一个委员会协调,其中包括…
OpenEnv,一个用于创建和部署隔离执行环境以进行智能体强化学习训练的框架,已迁移到 Hugging Face,现在由一个包括 Meta-PyTorch、NVIDIA 等的委员会管理。
OpenEnv 现由 HF、Torch、Prime Intellect、Unsloth、Modal、Mercor 等机构共同管理!可用于训练智能体。
OpenEnv 是一个用于创建终端、浏览器等智能体执行环境的工具。目前,它正过渡到更开放的治理模式,由包括 Hugging Face、Meta-PyTorch、Nvidia 等在内的委员会协调,以推动智能体训练的开源化。
@mercor_ai: 智能体的表现取决于其背后的环境。在Mercor,我们深耕于真实、基于经济模型的环境,帮助智能体从实验室走向实际应用…
Mercor宣布加入OpenEnv委员会,与Meta、PyTorch、NVIDIA、PrimeIntellect和Hugging Face等共同指导智能体环境的开放基础。
@SergioPaniego:OpenEnv的教程增长迅速。如果你刚开始接触强化学习环境,不妨去看看 > 评估……
OpenEnv是一个强化学习环境平台,正在扩展其教程,涵盖评估智能体、通过评分标准了解奖励机制以及通过MCP连接智能体等主题。
@qjoyliu: 训练的未来是开源的。非常激动地宣布,我们已与HuggingFace、Nvidia、Met…
OpenEnv,一个训练环境,正在向社区开放,得到了HuggingFace、Nvidia、Meta等领先公司的支持。