标签
一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。
讨论最近的智能体强化学习论文,强调动作掩码作为一种常见技术及其随着世界建模论文(如ECHO和PaW)的演变。
APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。
TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。
OpenEnv是一个用于创建智能体执行环境的库,旨在通过强化学习训练开源智能体。该库正变得更加开放,其新治理委员会成员包括Meta-PyTorch、Hugging Face、Nvidia等,目标是在模型和框架之间提供通用的协议层。
Sergio Paniego 强调,前沿智能体的性能得益于模型在其部署框架内进行训练。NVIDIA AI 的新工作“Polar: Agentic RL on Any Harness at Scale”能够将 Codex、Claude Code、Qwen Code 或 Pi 等框架转化为强化学习训练环境,而无需修改其内部结构。
StepPO 引入了一种面向智能体强化学习的步骤中心范式,该范式将策略优化与智能体决策粒度对齐,在多轮交互任务中优于以令牌为中心的方法。
This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.
Sanbu 散步发布了现代RL教程Hands-On Modern RL,涵盖从CartPole+PPO入门到LLM后训练(RLHF、DPO、GRPO)和Agentic RL,代码先行,英文版即将更新。
Skill0.5是一种新颖的智能体强化学习框架,通过动态难度感知路由器将通用技能内化与任务特定技能利用相结合,改进了复杂任务环境中的分布外泛化能力,在ALFWorld和WebShop上的实验证明了其效果。
NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。
本文提出AKBE,一种用于LLM智能体强化学习的在策略方法,能够动态判断何时需要使用工具以及何时内部知识足够,平均准确率提升+1.85,工具调用次数相比标准智能体RL减少18%。
本文提出将 Masked Diffusion Language Models (MDLMs) 作为基于文本的世界模型用于智能体强化学习,表明其任意顺序去噪目标避免了前缀模式崩溃,并且相比自回归基线模型带来了更强的性能。
EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。
DR-Venus-4B 是一个40亿参数的深研智能体,仅利用1万条开源样本,通过「智能体SFT+回合级奖励RL」训练,在多项研究基准上超越以往90亿以下模型,逼近300亿级系统,且可部署于边缘设备。