当代理过早承诺:诊断LLM代理的过早承诺
摘要
本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。
查看缓存全文
缓存时间: 2026/06/23 17:43
论文页面 - 当智能体过早承诺时:诊断LLM智能体的过早承诺
来源:https://huggingface.co/papers/2606.22936
长程智能体可能因过早定型而失败。本文引入了表征性承诺:跨运行隐藏状态的收敛性,用于诊断智能体是否已锁定某一轨迹。
关键发现是,承诺能够预测轨迹一致性,而非正确性。错误承诺的运行与正确承诺的运行可能共享相同的收敛特征。因此,跨运行间的一致并不总是智能体正确的证据;它可能仅意味着智能体已变得自信且定型。
实际用途在于监控:检测智能体何时已定型,然后决定是否需要验证、重新采样或延期处理——而非将一致性视为信任。
相似文章
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
多智能体LLM商议中的隐藏锚点
本文把多智能体LLM商议建模成一个闭环动力系统,其中每个智能体都拥有隐藏的内部信念(锚点),该锚点持续牵引其观点。文章展示了如何仅从商议数据中恢复这个锚点,并解释了诸如观点逃逸初始信念凸包等现象。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
从自信地宣告完成到悄然失败:描述LLM智能体中的虚假成功
本文描述了LLM智能体中的“虚假成功”现象,即智能体声称任务已完成,但环境状态显示并非如此。研究发现,在多个基准测试中,虚假成功占失败的45%-75%。LLM评判器无法可靠检测到这一现象,而轻量级TF-IDF检测器能以更低延迟实现高AUROC,提示生产监控应使用校准检测器而非LLM评判器。