当代理过早承诺:诊断LLM代理的过早承诺

Hugging Face Daily Papers 论文

摘要

本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。

长周期LLM代理可能悄然失败:它们过早地锁定证据的一种解读,然后用剩余的运行时间去辩护。我们将此称为过早承诺。最终答案评分无法捕捉这种失败模式,因为它只看到答案,而不关注过程是否已经坍缩到稳定路径。我们将表征承诺定义为在固定推理步骤上的跨运行隐藏状态收敛,并将其用作轨迹一致性的早期诊断工具。在基于Llama-3.1-70B运行ReAct于HotpotQA的实验中,第4步隐藏状态相似性预测了下游行为一致性(r = -0.35,偏相关r = -0.45),具有局部的时间和层级特征。该信号在Qwen-2.5-72B和Phi-3-14B以及StrategyQA(r = -0.83)上重复验证。它并不追踪正确性:承诺错误与承诺正确的问题在激活相似性上不可区分。这一边界是论断的核心。承诺告诉我们代理是否已稳定,而非是否正确。一个运行时监控器从隐藏状态中检测不一致轨迹,AUROC高达0.97(更严格划分下为0.85–0.88),而一种提示干预将行为方差降低了28%(相对于令牌匹配对照),同时统计上准确率无变化。我们还测试了该信号是否可引导自一致性计算;在一个更难的基准上,它仅提供适度帮助,且被一个基于输出的简单基线所匹配。结果是一种针对隐藏过程失败的诊断,具有明确的局限性,而非普遍准确率的提升杠杆。
查看原文
查看缓存全文

缓存时间: 2026/06/23 17:43

论文页面 - 当智能体过早承诺时:诊断LLM智能体的过早承诺

来源:https://huggingface.co/papers/2606.22936

长程智能体可能因过早定型而失败。本文引入了表征性承诺:跨运行隐藏状态的收敛性,用于诊断智能体是否已锁定某一轨迹。

关键发现是,承诺能够预测轨迹一致性,而非正确性。错误承诺的运行与正确承诺的运行可能共享相同的收敛特征。因此,跨运行间的一致并不总是智能体正确的证据;它可能仅意味着智能体已变得自信且定型。

实际用途在于监控:检测智能体何时已定型,然后决定是否需要验证、重新采样或延期处理——而非将一致性视为信任。

相似文章

STALE:LLM智能体能否识别记忆何时失效?

Hugging Face Daily Papers

本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。

多智能体LLM商议中的隐藏锚点

arXiv cs.AI

本文把多智能体LLM商议建模成一个闭环动力系统,其中每个智能体都拥有隐藏的内部信念(锚点),该锚点持续牵引其观点。文章展示了如何仅从商议数据中恢复这个锚点,并解释了诸如观点逃逸初始信念凸包等现象。

TeamTR:多智能体LLM协调的信任域微调

arXiv cs.LG

本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。

从自信地宣告完成到悄然失败:描述LLM智能体中的虚假成功

arXiv cs.LG

本文描述了LLM智能体中的“虚假成功”现象,即智能体声称任务已完成,但环境状态显示并非如此。研究发现,在多个基准测试中,虚假成功占失败的45%-75%。LLM评判器无法可靠检测到这一现象,而轻量级TF-IDF检测器能以更低延迟实现高AUROC,提示生产监控应使用校准检测器而非LLM评判器。