@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360
摘要
OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。
查看缓存全文
缓存时间: 2026/06/18 02:06
在 TRL 中使用实时奖励环境进行训练,现已集成 OpenReward
TL;DR: OpenReward 环境现已直接接入 TRL 的 GRPOTrainer。只需一个
OpenRewardSpec即可将 ORS 环境(包括其任务、工具和奖励)接入训练器的三个插槽,让你无需胶水代码即可利用 OpenReward 目录(或自托管、本地的 ORS 服务器)进行训练。pip install trl。
OpenReward 是一个开放的 RL 环境生态系统,基于开放奖励标准(ORS)构建。ORS 是一个公共的 HTTP/SSE 协议,定义了环境如何暴露其任务、工具、会话和奖励。由于 ORS 仅是一个协议,同一个环境可以在托管的 openreward.ai 目录上运行,也可以在你的基础设施上自托管,或在你开发时本地运行。
一个 OpenRewardSpec 将环境解析为训练器的三个插槽,因此你只需从目录中选择一个环境,交给它即可开始训练:
from trl import GRPOConfig, GRPOTrainer
from trl.experimental.openreward import OpenRewardSpec
# 将环境、任务及 ORS 计算的奖励解析为训练器的三个插槽。
spec = OpenRewardSpec("Eigent/SETA", num_tasks=64)
trainer = GRPOTrainer(
model="Qwen/Qwen3-4B",
args=GRPOConfig(num_generations=8, max_tool_calling_iterations=20),
train_dataset=spec.train_dataset, # ORS 任务列表
environment_factory=spec.environment_factory, # 每次 rollout 的 ORS 会话
reward_funcs=spec.reward_funcs, # ORS 计算的奖励
)
trainer.train()
以上代码今天即可运行。策略逐个回合地调用环境的工具,环境对结果进行评分,GRPO 据此进行训练。工具表面和循环逻辑由环境的工具提供,唯一被训练的部分是策略。将 spec 指向目录名称(设置 OPENREWARD_API_KEY)或自托管/本地服务器的 URL。完整可运行的脚本见 seta.py。
安装、设置密钥并启动(单个节点,vLLM 同驻,如示例所示):
pip install "trl[vllm,openreward]"
export OPENREWARD_API_KEY=...
# 终端 1:vLLM 服务器(2 块 GPU)
CUDA_VISIBLE_DEVICES=2,3 trl vllm-serve \
--model Qwen/Qwen3-4B \
--tensor-parallel-size 2 \
--port 8000
# 终端 2:训练(2 块 GPU)
CUDA_VISIBLE_DEVICES=0,1 accelerate launch \
--config_file examples/accelerate_configs/deepspeed_zero2.yaml \
--num_processes 2 \
examples/scripts/openreward/seta.py \
--vllm-mode server \
--vllm-server-base-url http://localhost:8000
注意: OpenReward 支持仍处于实验阶段(位于
trl.experimental下),因此 API 会持续演进。这是使环境和智能体 RL 成为 TRL 一等公民的广泛方向中的一步,相关设计正在公开讨论中:环境拥有奖励(#5912)、环境拥有数据集(#5903),以及统一环境和智能体 rollout 的单一 rollout 源契约(#5974)。
TRL 还集成了 OpenEnv,即开放环境标准。有关 TRL 之外更广泛的 RL 环境框架全景,请参阅《终极 RL 环境指南》。
资源
-
TRL OpenReward 指南:https://huggingface.co/docs/trl/openreward
-
可运行示例(seta.py):https://github.com/huggingface/trl/blob/main/examples/scripts/openreward/seta.py
-
OpenReward 目录:https://openreward.ai
-
开放奖励标准(ORS):https://openrewardstandard.io
-
终极 RL 环境指南:https://huggingface.co/spaces/AdithyaSK/rl-environments-guide
-
智能体术语表(本文使用的词汇):https://huggingface.co/blog/agent-glossary
-
TRL OpenEnv 集成:https://huggingface.co/docs/trl/openenv
相似文章
@adithya_s_k: 现在,您只需几行代码即可使用 TRL 在 OpenReward 提供的 350+ 个强化学习环境上进行训练
OpenReward 和 TRL 现在支持在超过 350 个强化学习环境中进行训练,只需极少代码。
@SergioPaniego:OpenEnv的教程增长迅速。如果你刚开始接触强化学习环境,不妨去看看 > 评估……
OpenEnv是一个强化学习环境平台,正在扩展其教程,涵盖评估智能体、通过评分标准了解奖励机制以及通过MCP连接智能体等主题。
GRLO:从零开始迈向开放环境下的通用强化学习
GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。
@SergioPaniego: OpenEnv 有了新家:http://github.com/huggingface/OpenEnv… 从今天起,由一个委员会协调,其中包括…
OpenEnv,一个用于创建和部署隔离执行环境以进行智能体强化学习训练的框架,已迁移到 Hugging Face,现在由一个包括 Meta-PyTorch、NVIDIA 等的委员会管理。
开源社区支持用于智能体强化学习的OpenEnv
OpenEnv是一个用于创建智能体执行环境的库,旨在通过强化学习训练开源智能体。该库正变得更加开放,其新治理委员会成员包括Meta-PyTorch、Hugging Face、Nvidia等,目标是在模型和框架之间提供通用的协议层。