agentic-rl

#agentic-rl

@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客，涵盖了该领域10多个最新框架。以下是关键要点……链接……

X AI KOLs Timeline ↗ · 昨天缓存

一篇博客文章，总结了十个最新的智能体强化学习框架和最佳实践，涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。

0 人收藏 0 人点赞

#agentic-rl

@cwolferesearch: 我最近读了很多关于智能体强化学习的论文。在所有工作中，唯一常用的技巧之一是动作……

X AI KOLs Timeline ↗ · 4天前缓存

讨论最近的智能体强化学习论文，强调动作掩码作为一种常见技术及其随着世界建模论文（如ECHO和PaW）的演变。

0 人收藏 0 人点赞

#agentic-rl

APPO: 智能体过程策略优化

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配，从而提升LLM智能体的多轮工具使用能力，在13个基准测试中比基线高出近4个百分点。

0 人收藏 0 人点赞

#agentic-rl

TRACE：一种用于高效智能体强化学习的统一展开预算分配框架

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

TRACE是一个统一的展开预算分配框架，通过基于前缀信息性在树状展开中动态分配资源，增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。

0 人收藏 0 人点赞

#agentic-rl

开源社区支持用于智能体强化学习的OpenEnv

Hugging Face Blog ↗ · 2026-06-08 缓存

OpenEnv是一个用于创建智能体执行环境的库，旨在通过强化学习训练开源智能体。该库正变得更加开放，其新治理委员会成员包括Meta-PyTorch、Hugging Face、Nvidia等，目标是在模型和框架之间提供通用的协议层。

0 人收藏 0 人点赞

#agentic-rl

@SergioPaniego：前沿智能体之所以如此出色，部分原因是模型在与其一同交付的同一框架内进行了训练。很高兴看到这…

X AI KOLs Timeline ↗ · 2026-06-05 缓存

Sergio Paniego 强调，前沿智能体的性能得益于模型在其部署框架内进行训练。NVIDIA AI 的新工作“Polar: Agentic RL on Any Harness at Scale”能够将 Codex、Claude Code、Qwen Code 或 Pi 等框架转化为强化学习训练环境，而无需修改其内部结构。

0 人收藏 0 人点赞

#agentic-rl

StepPO：面向智能体强化学习的步骤对齐策略优化

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

StepPO 引入了一种面向智能体强化学习的步骤中心范式，该范式将策略优化与智能体决策粒度对齐，在多轮交互任务中优于以令牌为中心的方法。

0 人收藏 0 人点赞

#agentic-rl

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI ↗ · 2026-06-01 缓存

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

0 人收藏 0 人点赞

#agentic-rl

@yuwen_lu_: 看了一半，我靠怎么从来没人告诉我rl这么好玩

X AI KOLs Timeline ↗ · 2026-05-30 缓存

Sanbu 散步发布了现代RL教程Hands-On Modern RL，涵盖从CartPole+PPO入门到LLM后训练（RLHF、DPO、GRPO）和Agentic RL，代码先行，英文版即将更新。

0 人收藏 0 人点赞

#agentic-rl

Skill0.5：面向智能体强化学习中分布外泛化的技能内化与利用联合框架

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

Skill0.5是一种新颖的智能体强化学习框架，通过动态难度感知路由器将通用技能内化与任务特定技能利用相结合，改进了复杂任务环境中的分布外泛化能力，在ALFWorld和WebShop上的实验证明了其效果。

0 人收藏 0 人点赞

#agentic-rl

@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗？我们很高兴推出ProRL Agent V2: Polar。A…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

NVIDIA发布了Polar，一个用于黑盒智能体强化学习的开源基础设施，支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。

0 人收藏 0 人点赞

#agentic-rl

基于策略的内在知识边界增强的高效智能体强化学习

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

本文提出AKBE，一种用于LLM智能体强化学习的在策略方法，能够动态判断何时需要使用工具以及何时内部知识足够，平均准确率提升+1.85，工具调用次数相比标准智能体RL减少18%。

0 人收藏 0 人点赞

#agentic-rl

Masked Diffusion Language Models 是强大且可操控的基于文本的世界模型，用于智能体强化学习 [R]

Reddit r/MachineLearning ↗ · 2026-05-21

本文提出将 Masked Diffusion Language Models (MDLMs) 作为基于文本的世界模型用于智能体强化学习，表明其任意顺序去噪目标避免了前缀模式崩溃，并且相比自回归基线模型带来了更强的性能。

0 人收藏 0 人点赞

#agentic-rl

EnvFactory：通过可执行环境合成与鲁棒强化学习扩展工具使用智能体

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹，用于训练具有智能体强化学习能力的大语言模型，在使用比先前工作更少的环境下，在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。

0 人收藏 0 人点赞

#agentic-rl

DR-Venus：仅用1万开源数据打造边缘级前沿深度研究智能体

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

DR-Venus-4B 是一个40亿参数的深研智能体，仅利用1万条开源样本，通过「智能体SFT+回合级奖励RL」训练，在多项研究基准上超越以往90亿以下模型，逼近300亿级系统，且可部署于边缘设备。

0 人收藏 0 人点赞

agentic-rl

提交意见反馈