@TheTuringPost: 开源代理强化训练器(ART)——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励…

X AI KOLs Timeline 工具

摘要

代理强化训练器(ART)是一个开源框架,将基于GRPO的强化学习嵌入任何Python应用,使代理能够通过环境交互学习,利用轨迹评分和LoRA更新,据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。

开源代理强化训练器(ART)——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励 → ART负责强化学习循环:推理、轨迹评分、GRPO优化、检查点保存和LoRA更新 这样,代理就能通过经验和环境交互来学习。 它适用于多步骤任务,如工具使用、邮件搜索、MCP、游戏和推理工作流 例如,ART•E使用Qwen 2.5 14B模型训练了一个邮件代理,在邮件检索任务上超越了OpenAI的o3 核心循环如下: 代理尝试任务 → 存储轨迹 → 获得奖励 → 使用GRPO训练 → 加载新的LoRA → 再次尝试 借助W&B Serverless RL,您可以跳过GPU基础设施。他们声称: - 成本降低40% - 训练速度提升28% - 支持2000+并发请求
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:38

一个开源的智能体强化训练器(ART)——将GRPO集成到任何Python应用中

→ 您的应用定义任务和奖励
→ ART处理强化学习循环:推理、轨迹评分、GRPO优化、检查点保存和LoRA更新

这样智能体就能通过经验和环境交互进行学习。它适用于多步任务,如工具使用、邮件搜索、MCP、游戏和推理工作流。

例如,ART•E训练了一个Qwen 2.5 14B邮件智能体,其在邮件检索任务上超越了OpenAI的o3。

核心循环如下:
智能体尝试任务 → 存储轨迹 → 获得奖励 → 使用GRPO训练 → 加载新的LoRA → 再次尝试

借助W&B Serverless RL,您可以跳过GPU基础设施。他们声称:

  • 成本降低40%
  • 训练速度提升28%
  • 支持2000+并发请求

相似文章

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

计算机使用代理

OpenAI Blog

# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型