标签
本文从机制上解释了为什么LLMs在长时间的多轮交互中会丢失指令,引入了目标可访问性比率(GAR)指标和通道转换框架。通过消融研究和残差流探针,论文表明,对定义目标词元的注意力会在回合间关闭,而目标信息在残差表示中持续存在,并出现了架构特定的失败模式。
IndicMedDialog 是一个并行多轮医疗对话数据集,涵盖英语和九种印度语言,并包含一个微调模型,用于个性化症状询问。该数据集源自 MDDial,通过LLM生成的合成咨询和专家验证进行增强,支持多语言医疗AI。
本文重新审视了数据集聚合(DAgger)方法在训练长周期大语言模型智能体中的应用,证明了在回合级别上对教师与学生的策略进行插值能够有效缓解协变量偏移,并在SWE-bench Verified等软件工程基准测试中优于现有方法。
本文介绍了 Sequor,这是一个用于评估人工智能模型在长多轮对话中遵循约束能力的新基准。该研究强调,当前模型在长时间交互中保持对指令的遵循方面存在显著困难。
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。
本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。
Anthropic 发布了一份指南,介绍如何为 AI Agent 设计严谨的自动化评测方案,重点解决了多轮交互和状态修改带来的复杂性挑战。