@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline 工具

摘要

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

https://t.co/AKHNVGmBPz
查看原文
查看缓存全文

缓存时间: 2026/06/18 02:06

在 TRL 中使用实时奖励环境进行训练,现已集成 OpenReward

TL;DR: OpenReward 环境现已直接接入 TRL 的 GRPOTrainer。只需一个 OpenRewardSpec 即可将 ORS 环境(包括其任务、工具和奖励)接入训练器的三个插槽,让你无需胶水代码即可利用 OpenReward 目录(或自托管、本地的 ORS 服务器)进行训练。pip install trl

OpenReward 是一个开放的 RL 环境生态系统,基于开放奖励标准(ORS)构建。ORS 是一个公共的 HTTP/SSE 协议,定义了环境如何暴露其任务、工具、会话和奖励。由于 ORS 仅是一个协议,同一个环境可以在托管的 openreward.ai 目录上运行,也可以在你的基础设施上自托管,或在你开发时本地运行。

一个 OpenRewardSpec 将环境解析为训练器的三个插槽,因此你只需从目录中选择一个环境,交给它即可开始训练:

from trl import GRPOConfig, GRPOTrainer
from trl.experimental.openreward import OpenRewardSpec

# 将环境、任务及 ORS 计算的奖励解析为训练器的三个插槽。
spec = OpenRewardSpec("Eigent/SETA", num_tasks=64)

trainer = GRPOTrainer(
    model="Qwen/Qwen3-4B",
    args=GRPOConfig(num_generations=8, max_tool_calling_iterations=20),
    train_dataset=spec.train_dataset,            # ORS 任务列表
    environment_factory=spec.environment_factory,  # 每次 rollout 的 ORS 会话
    reward_funcs=spec.reward_funcs,              # ORS 计算的奖励
)
trainer.train()

以上代码今天即可运行。策略逐个回合地调用环境的工具,环境对结果进行评分,GRPO 据此进行训练。工具表面和循环逻辑由环境的工具提供,唯一被训练的部分是策略。将 spec 指向目录名称(设置 OPENREWARD_API_KEY)或自托管/本地服务器的 URL。完整可运行的脚本见 seta.py

安装、设置密钥并启动(单个节点,vLLM 同驻,如示例所示):

pip install "trl[vllm,openreward]"
export OPENREWARD_API_KEY=...

# 终端 1:vLLM 服务器(2 块 GPU)
CUDA_VISIBLE_DEVICES=2,3 trl vllm-serve \
    --model Qwen/Qwen3-4B \
    --tensor-parallel-size 2 \
    --port 8000

# 终端 2:训练(2 块 GPU)
CUDA_VISIBLE_DEVICES=0,1 accelerate launch \
    --config_file examples/accelerate_configs/deepspeed_zero2.yaml \
    --num_processes 2 \
    examples/scripts/openreward/seta.py \
    --vllm-mode server \
    --vllm-server-base-url http://localhost:8000

注意: OpenReward 支持仍处于实验阶段(位于 trl.experimental 下),因此 API 会持续演进。这是使环境和智能体 RL 成为 TRL 一等公民的广泛方向中的一步,相关设计正在公开讨论中:环境拥有奖励(#5912)、环境拥有数据集(#5903),以及统一环境和智能体 rollout 的单一 rollout 源契约(#5974)。

TRL 还集成了 OpenEnv,即开放环境标准。有关 TRL 之外更广泛的 RL 环境框架全景,请参阅《终极 RL 环境指南》。

资源

  • TRL OpenReward 指南:https://huggingface.co/docs/trl/openreward

  • 可运行示例(seta.py):https://github.com/huggingface/trl/blob/main/examples/scripts/openreward/seta.py

  • OpenReward 目录:https://openreward.ai

  • 开放奖励标准(ORS):https://openrewardstandard.io

  • 终极 RL 环境指南:https://huggingface.co/spaces/AdithyaSK/rl-environments-guide

  • 智能体术语表(本文使用的词汇):https://huggingface.co/blog/agent-glossary

  • TRL OpenEnv 集成:https://huggingface.co/docs/trl/openenv

相似文章

GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

开源社区支持用于智能体强化学习的OpenEnv

Hugging Face Blog

OpenEnv是一个用于创建智能体执行环境的库,旨在通过强化学习训练开源智能体。该库正变得更加开放,其新治理委员会成员包括Meta-PyTorch、Hugging Face、Nvidia等,目标是在模型和框架之间提供通用的协议层。