@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline 2026/06/17 15:36 工具

trl openreward reinforcement-learning rl-environments training open-source

摘要

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中，从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段，是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

https://t.co/AKHNVGmBPz

查看原文

查看缓存全文

缓存时间: 2026/06/18 02:06

在 TRL 中使用实时奖励环境进行训练，现已集成 OpenReward

TL;DR： OpenReward 环境现已直接接入 TRL 的 GRPOTrainer。只需一个 OpenRewardSpec 即可将 ORS 环境（包括其任务、工具和奖励）接入训练器的三个插槽，让你无需胶水代码即可利用 OpenReward 目录（或自托管、本地的 ORS 服务器）进行训练。pip install trl。

OpenReward 是一个开放的 RL 环境生态系统，基于开放奖励标准（ORS）构建。ORS 是一个公共的 HTTP/SSE 协议，定义了环境如何暴露其任务、工具、会话和奖励。由于 ORS 仅是一个协议，同一个环境可以在托管的 openreward.ai 目录上运行，也可以在你的基础设施上自托管，或在你开发时本地运行。

一个 OpenRewardSpec 将环境解析为训练器的三个插槽，因此你只需从目录中选择一个环境，交给它即可开始训练：

from trl import GRPOConfig, GRPOTrainer
from trl.experimental.openreward import OpenRewardSpec

# 将环境、任务及 ORS 计算的奖励解析为训练器的三个插槽。
spec = OpenRewardSpec("Eigent/SETA", num_tasks=64)

trainer = GRPOTrainer(
    model="Qwen/Qwen3-4B",
    args=GRPOConfig(num_generations=8, max_tool_calling_iterations=20),
    train_dataset=spec.train_dataset,            # ORS 任务列表
    environment_factory=spec.environment_factory,  # 每次 rollout 的 ORS 会话
    reward_funcs=spec.reward_funcs,              # ORS 计算的奖励
)
trainer.train()

以上代码今天即可运行。策略逐个回合地调用环境的工具，环境对结果进行评分，GRPO 据此进行训练。工具表面和循环逻辑由环境的工具提供，唯一被训练的部分是策略。将 spec 指向目录名称（设置 OPENREWARD_API_KEY）或自托管/本地服务器的 URL。完整可运行的脚本见 seta.py。

安装、设置密钥并启动（单个节点，vLLM 同驻，如示例所示）：

pip install "trl[vllm,openreward]"
export OPENREWARD_API_KEY=...

# 终端 1：vLLM 服务器（2 块 GPU）
CUDA_VISIBLE_DEVICES=2,3 trl vllm-serve \
    --model Qwen/Qwen3-4B \
    --tensor-parallel-size 2 \
    --port 8000

# 终端 2：训练（2 块 GPU）
CUDA_VISIBLE_DEVICES=0,1 accelerate launch \
    --config_file examples/accelerate_configs/deepspeed_zero2.yaml \
    --num_processes 2 \
    examples/scripts/openreward/seta.py \
    --vllm-mode server \
    --vllm-server-base-url http://localhost:8000

注意： OpenReward 支持仍处于实验阶段（位于 trl.experimental 下），因此 API 会持续演进。这是使环境和智能体 RL 成为 TRL 一等公民的广泛方向中的一步，相关设计正在公开讨论中：环境拥有奖励（#5912）、环境拥有数据集（#5903），以及统一环境和智能体 rollout 的单一 rollout 源契约（#5974）。

TRL 还集成了 OpenEnv，即开放环境标准。有关 TRL 之外更广泛的 RL 环境框架全景，请参阅《终极 RL 环境指南》。

资源

TRL OpenReward 指南：https://huggingface.co/docs/trl/openreward
可运行示例（seta.py）：https://github.com/huggingface/trl/blob/main/examples/scripts/openreward/seta.py
OpenReward 目录：https://openreward.ai
开放奖励标准（ORS）：https://openrewardstandard.io
终极 RL 环境指南：https://huggingface.co/spaces/AdithyaSK/rl-environments-guide
智能体术语表（本文使用的词汇）：https://huggingface.co/blog/agent-glossary
TRL OpenEnv 集成：https://huggingface.co/docs/trl/openenv

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

在 TRL 中使用实时奖励环境进行训练，现已集成 OpenReward

相似文章

@adithya_s_k: 现在，您只需几行代码即可使用 TRL 在 OpenReward 提供的 350+ 个强化学习环境上进行训练

@SergioPaniego：OpenEnv的教程增长迅速。如果你刚开始接触强化学习环境，不妨去看看 > 评估……

GRLO：从零开始迈向开放环境下的通用强化学习

@SergioPaniego: OpenEnv 有了新家：http://github.com/huggingface/OpenEnv… 从今天起，由一个委员会协调，其中包括…

开源社区支持用于智能体强化学习的OpenEnv

提交意见反馈