@TheTuringPost: 开源代理强化训练器（ART）——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励…

X AI KOLs Timeline 2026/06/20 11:39 工具

open-source reinforcement-learning agents grpo lora training python

摘要

代理强化训练器（ART）是一个开源框架，将基于GRPO的强化学习嵌入任何Python应用，使代理能够通过环境交互学习，利用轨迹评分和LoRA更新，据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。

开源代理强化训练器（ART）——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励 → ART负责强化学习循环：推理、轨迹评分、GRPO优化、检查点保存和LoRA更新这样，代理就能通过经验和环境交互来学习。它适用于多步骤任务，如工具使用、邮件搜索、MCP、游戏和推理工作流例如，ART•E使用Qwen 2.5 14B模型训练了一个邮件代理，在邮件检索任务上超越了OpenAI的o3 核心循环如下：代理尝试任务 → 存储轨迹 → 获得奖励 → 使用GRPO训练 → 加载新的LoRA → 再次尝试借助W&B Serverless RL，您可以跳过GPU基础设施。他们声称： - 成本降低40% - 训练速度提升28% - 支持2000+并发请求

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:38

一个开源的智能体强化训练器（ART）——将GRPO集成到任何Python应用中

→ 您的应用定义任务和奖励
→ ART处理强化学习循环：推理、轨迹评分、GRPO优化、检查点保存和LoRA更新

这样智能体就能通过经验和环境交互进行学习。它适用于多步任务，如工具使用、邮件搜索、MCP、游戏和推理工作流。

例如，ART•E训练了一个Qwen 2.5 14B邮件智能体，其在邮件检索任务上超越了OpenAI的o3。

核心循环如下：
智能体尝试任务 → 存储轨迹 → 获得奖励 → 使用GRPO训练 → 加载新的LoRA → 再次尝试

借助W&B Serverless RL，您可以跳过GPU基础设施。他们声称：

成本降低40%
训练速度提升28%
支持2000+并发请求

相似文章

@TheTuringPost: 用于 Agent RL 栈的 10 个开源工具 ↓ OpenPipe ART verl-agent Agent Lightning Unsloth OpenRLHF SkyRL NVIDIA’s P…

X AI KOLs Timeline

精心整理的 10 个用于通过强化学习训练 AI Agent 的开源工具，涵盖 OpenPipe ART、verl-agent、Agent Lightning 和 Unsloth 等框架，并介绍了各工具的使用场景和优势。

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中，从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段，是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

GRLO：从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法，仅使用 5000 条提示和 22.7 GPU 小时，就在多个领域（数学、代码等）实现了强大的泛化能力，在效率和数据需求上显著优于领域内的 RLVR 基线。

GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体

arXiv cs.LG

GROW提出了一种新颖的强化学习框架，通过将轨迹分解为状态-动作对并计算它们之间的优势，将GRPO适配到多轮VLM智能体任务中，在超过800个Minecraft任务上实现了最先进的性能。

计算机使用代理

OpenAI Blog

# 计算机使用代理来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持，这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版，这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动，这是一个结合了GPT-4o视觉功能的模型