@TheTuringPost: 开源代理强化训练器(ART)——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励…
摘要
代理强化训练器(ART)是一个开源框架,将基于GRPO的强化学习嵌入任何Python应用,使代理能够通过环境交互学习,利用轨迹评分和LoRA更新,据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。
查看缓存全文
缓存时间: 2026/06/20 14:38
一个开源的智能体强化训练器(ART)——将GRPO集成到任何Python应用中
→ 您的应用定义任务和奖励
→ ART处理强化学习循环:推理、轨迹评分、GRPO优化、检查点保存和LoRA更新
这样智能体就能通过经验和环境交互进行学习。它适用于多步任务,如工具使用、邮件搜索、MCP、游戏和推理工作流。
例如,ART•E训练了一个Qwen 2.5 14B邮件智能体,其在邮件检索任务上超越了OpenAI的o3。
核心循环如下:
智能体尝试任务 → 存储轨迹 → 获得奖励 → 使用GRPO训练 → 加载新的LoRA → 再次尝试
借助W&B Serverless RL,您可以跳过GPU基础设施。他们声称:
- 成本降低40%
- 训练速度提升28%
- 支持2000+并发请求
相似文章
@TheTuringPost: 用于 Agent RL 栈的 10 个开源工具 ↓ OpenPipe ART verl-agent Agent Lightning Unsloth OpenRLHF SkyRL NVIDIA’s P…
精心整理的 10 个用于通过强化学习训练 AI Agent 的开源工具,涵盖 OpenPipe ART、verl-agent、Agent Lightning 和 Unsloth 等框架,并介绍了各工具的使用场景和优势。
@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360
OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。
GRLO:从零开始迈向开放环境下的通用强化学习
GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。
GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体
GROW提出了一种新颖的强化学习框架,通过将轨迹分解为状态-动作对并计算它们之间的优势,将GRPO适配到多轮VLM智能体任务中,在超过800个Minecraft任务上实现了最先进的性能。
计算机使用代理
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型