标签
GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。
SynAE 是一个评估框架,用于衡量工具调用智能体评测中使用的合成数据的质量,从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标,应对真实数据不足或敏感带来的挑战。
该推文重点介绍了美团团队关于 Skill0 的论文,这是一种用于技能内在化的RL方法,并引用了一篇关于自蒸馏智能体RL的相关论文。
SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。