multi-turn-agents

标签

Cards List
#multi-turn-agents

GAGPO:广义优势分组策略优化

arXiv cs.AI · 昨天 缓存

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

0 人收藏 0 人点赞
#multi-turn-agents

SynAE:一种用于评估工具调用智能体评测中合成数据质量的框架

arXiv cs.CL · 2026-05-22 缓存

SynAE 是一个评估框架,用于衡量工具调用智能体评测中使用的合成数据的质量,从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标,应对真实数据不足或敏感带来的挑战。

0 人收藏 0 人点赞
#multi-turn-agents

@maximelabonne: 太酷了!来自 @Meituan_LongCat 的同一团队撰写了 Skill0,他们提出了一种用于技能内在化的RL方法。

X AI KOLs Following · 2026-05-17 缓存

该推文重点介绍了美团团队关于 Skill0 的论文,这是一种用于技能内在化的RL方法,并引用了一篇关于自蒸馏智能体RL的相关论文。

0 人收藏 0 人点赞
#multi-turn-agents

Self-Distilled Agentic Reinforcement Learning

Hugging Face Daily Papers · 2026-05-14 缓存

SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈