开源社区支持用于智能体强化学习的OpenEnv

Hugging Face Blog 2026/06/08 00:00 工具

open-source agentic-rl reinforcement-learning environment community huggingface

摘要

OpenEnv是一个用于创建智能体执行环境的库，旨在通过强化学习训练开源智能体。该库正变得更加开放，其新治理委员会成员包括Meta-PyTorch、Hugging Face、Nvidia等，目标是在模型和框架之间提供通用的协议层。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/08 15:16

开源社区支持使用 OpenEnv 进行智能体强化学习

来源：https://huggingface.co/blog/openenv-agentic-rl 返回文章列表 (https://huggingface.co/blog)

博客文章的缩略图 (https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/openenv-expansion/banner.png)

OpenEnv 是一个用于创建智能体执行环境的工具，比如终端、浏览器或智能体可以与之交互的任何东西。今天，我们激动地宣布 OpenEnv 将变得更加开放，以让训练智能体的未来更加开源。

从今天起，OpenEnv 将由一个委员会协调，该委员会目前包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 现在位于 huggingface/OpenEnv (https://github.com/huggingface/OpenEnv)

OpenEnv 项目得到了人工智能生态系统中一些领先组织的支持和采用，包括 PyTorch 基金会、vLLM、SkyRL（UCB）、Lightning AI、Axolotl AI、斯坦福扩展智能实验室、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。

为什么我们需要 OpenEnv 来训练开源智能体

像 Claude Code、Codex、OpenClaw 和 Hermes 这样的智能体工具包一直在改进。其改进的一个原因是像 GPT-5.5 和 Opus 4.8 这样的模型被训练使用它们各自的工具包。

我们也希望开源模型能获得这些收益：训练本地模型以有效使用工具包，并通过为特定任务定制模型来节省计算资源。

为什么我们需要（更加）开放

前沿实验室训练的模型和工具包大多配合得天衣无缝。模型被训练使用工具包，并针对其特性进行优化。模型可以在一定程度上泛化到这些工具包之外，但没有什么能比得上训练的效率。

开源强化学习生态系统 (https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/openenv-expansion/diagram.png)

在开源世界里，情况并非如此。开发人员使用任何工具包、任何模型、任何推理引擎，应用于他们重视的任何用例。这对社区来说是基础，但也是一个需要基础设施和工具来应对的挑战。

这就是 OpenEnv 的用武之地。它是一个用于连接工具包、环境和训练器的库，适用于任何模型。要让它持久发展，需要由所有主要利益相关方共同拥有。

一个协议层，而非奖励框架

伴随着治理结构的变更，我们正在明确 OpenEnv 是什么。

在最近的版本中，OpenEnv 已经成为一个 RL 环境的互操作性层。它的工作是标准化环境如何发布、部署以及被智能体使用。它不会规定奖励如何定义或训练循环如何工作。奖励定义、评分标准和训练器特定逻辑属于专门处理这些的库。OpenEnv 是它们都可以插入的通用接口。

在实践中这意味着：

一个接口，多个环境都暴露熟悉的 Gymnasium 风格 API（reset()、step()、state()）在客户端/服务器架构上运行。一个支持 OpenEnv 的训练器可以驱动任何兼容的环境，无需定制代码。

熟悉的协议和规范的打包方式。环境通过 HTTP 和 WebSocket 等标准协议提供服务，并使用 Docker 打包。MCP 是一等公民，因此 OpenEnv 环境与 MCP 服务器即时兼容，并且在模拟（训练/评估）和生产模式下表现一致。

跨环境库的互操作性。您可以在不同的生态系统（verifiers、harbor 等）中定义和使用环境，在您选择的基础设施和中心上。OpenEnv 是它们底层的部署和接口层，而不是它们的竞争对手。

下一步计划

在接下来的几个月里，我们将专注于将 OpenEnv 从一个快速增长的项目转变为一个可靠的标准：

通过数据集的任务集：将环境任务与 Hugging Face 数据集连接起来，使环境和基准测试能够干净地组合（RFC 006）。
外部奖励：允许奖励在您已经使用的任何库中定义，同时 OpenEnv 作为部署层（RFC 007）。
持续的工具包集成：对智能体工具包的一等支持。
端到端示例：在 TRL、Unsloth 及其他工具中的完整训练和评估演练。
自动验证：衡量环境质量及其对模型学习的贡献。这将为社区提供一种可扩展的方式来评估他们的环境并提高质量（想想黑客马拉松吧！）。RFC 008。

参与其中

OpenEnv 在设计上以社区为中心，而且仍处于早期阶段——可能会有些粗糙，请帮助我们打磨它们。查看代码和 RFC：github.com/huggingface/OpenEnv (https://github.com/huggingface/OpenEnv)

感谢所有帮助实现这一转变的人。让我们一起为开源智能体强化学习构建共同的基础。

开源社区支持用于智能体强化学习的OpenEnv

开源社区支持使用 OpenEnv 进行智能体强化学习

为什么我们需要 OpenEnv 来训练开源智能体

为什么我们需要（更加）开放

一个协议层，而非奖励框架

下一步计划

参与其中

相似文章

@SergioPaniego: OpenEnv 有了新家：http://github.com/huggingface/OpenEnv… 从今天起，由一个委员会协调，其中包括…

OpenEnv 现由 HF、Torch、Prime Intellect、Unsloth、Modal、Mercor 等机构共同管理！可用于训练智能体。

@mercor_ai: 智能体的表现取决于其背后的环境。在Mercor，我们深耕于真实、基于经济模型的环境，帮助智能体从实验室走向实际应用…

@SergioPaniego：OpenEnv的教程增长迅速。如果你刚开始接触强化学习环境，不妨去看看 > 评估……

@qjoyliu: 训练的未来是开源的。非常激动地宣布，我们已与HuggingFace、Nvidia、Met…

提交意见反馈