multi-turn-agents

#multi-turn-agents

GAGPO：广义优势分组策略优化

arXiv cs.AI ↗ · 昨天缓存

GAGPO提出了一种无评论家的强化学习方法，在多方交互的自主任务中，利用非参数分组价值代理进行步级信用分配，在ALFWorld和WebShop上超越了强基线模型。

0 人收藏 0 人点赞

#multi-turn-agents

arXiv cs.CL ↗ · 2026-05-22 缓存

SynAE 是一个评估框架，用于衡量工具调用智能体评测中使用的合成数据的质量，从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标，应对真实数据不足或敏感带来的挑战。

0 人收藏 0 人点赞

#multi-turn-agents

X AI KOLs Following ↗ · 2026-05-17 缓存

该推文重点介绍了美团团队关于 Skill0 的论文，这是一种用于技能内在化的RL方法，并引用了一篇关于自蒸馏智能体RL的相关论文。

0 人收藏 0 人点赞

#multi-turn-agents

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

SDAR通过将自蒸馏与Sigmoid门控相结合，有选择地增强正向令牌级引导，同时减轻负面教师拒绝的影响，从而增强多轮智能体训练，在多个基准测试中相较于GRPO取得了显著提升。

0 人收藏 0 人点赞