标签
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。
SEAL提出了一个闭环框架,用于联合演化LLM智能体及其训练环境,利用诊断引导的标签对齐双方。仅用400个训练样本,它就在多轮工具使用任务上取得了显著提升,表现出更好的鲁棒性和分布外迁移能力。
WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。
Arc Sentry 通过读取模型内部状态而非文本输出来检测类似 Crescendo 的多轮越狱,捕获了基于文本的监控器完全遗漏的攻击。
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
本文首次系统研究了多轮LLM智能体中的信用分配问题,提出了SERL——一种选择性环境重加权学习框架。SERL利用环境反馈在因果相关动作上强化强化学习目标,在ALFWorld和WebShop上分别达到了90.0%和80.1%的成功率。
π-Bench是一个新的基准测试,包含100个多轮任务,涉及5个特定领域的用户画像,并隐藏了用户意图,旨在评估个人助手智能体在长时间跨度工作流中的主动式协助能力。
本文从机制上解释了为什么LLMs在长时间的多轮交互中会丢失指令,引入了目标可访问性比率(GAR)指标和通道转换框架。通过消融研究和残差流探针,论文表明,对定义目标词元的注意力会在回合间关闭,而目标信息在残差表示中持续存在,并出现了架构特定的失败模式。
IndicMedDialog 是一个并行多轮医疗对话数据集,涵盖英语和九种印度语言,并包含一个微调模型,用于个性化症状询问。该数据集源自 MDDial,通过LLM生成的合成咨询和专家验证进行增强,支持多语言医疗AI。
本文重新审视了数据集聚合(DAgger)方法在训练长周期大语言模型智能体中的应用,证明了在回合级别上对教师与学生的策略进行插值能够有效缓解协变量偏移,并在SWE-bench Verified等软件工程基准测试中优于现有方法。
本文介绍了 Sequor,这是一个用于评估人工智能模型在长多轮对话中遵循约束能力的新基准。该研究强调,当前模型在长时间交互中保持对指令的遵循方面存在显著困难。
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。
本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。
Anthropic 发布了一份指南,介绍如何为 AI Agent 设计严谨的自动化评测方案,重点解决了多轮交互和状态修改带来的复杂性挑战。