标签
ToolFailBench,一个用于评估工具使用型代理的诊断基准,已被两个 ICML 2026 研讨会(FAGEN 和 AIWILD)接收。
一条推文指出,许多AI认知将足以完成任务,剩余的工作涉及诊断性分类,例如决定是否值得花钱请律师。
本文研究了长思维链(CoT)训练轨迹中的一种有害现象,即结论后延续会降低训练效用,并提出了一种名为HarmfulContinuationCut(HCC)的诊断方法来检测此类有害延续。
本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。
引入SeqMem-Eval,一种用于序列演化LLM记忆的诊断评估框架,测量超越聚合指标的多个维度,揭示适应性与稳定性之间的权衡。