当代理过早承诺：诊断LLM代理的过早承诺

Hugging Face Daily Papers 2026/06/22 00:00 论文

摘要

本文引入表征承诺，这是一种跨运行隐藏状态收敛，用于诊断LLM代理何时过早锁定了轨迹。研究表明，承诺预测轨迹一致性而非正确性，并提出了监控方法，用于检测代理何时自信地稳定下来，而不是假设一致性等于可信度。

长周期LLM代理可能悄然失败：它们过早地锁定证据的一种解读，然后用剩余的运行时间去辩护。我们将此称为过早承诺。最终答案评分无法捕捉这种失败模式，因为它只看到答案，而不关注过程是否已经坍缩到稳定路径。我们将表征承诺定义为在固定推理步骤上的跨运行隐藏状态收敛，并将其用作轨迹一致性的早期诊断工具。在基于Llama-3.1-70B运行ReAct于HotpotQA的实验中，第4步隐藏状态相似性预测了下游行为一致性（r = -0.35，偏相关r = -0.45），具有局部的时间和层级特征。该信号在Qwen-2.5-72B和Phi-3-14B以及StrategyQA（r = -0.83）上重复验证。它并不追踪正确性：承诺错误与承诺正确的问题在激活相似性上不可区分。这一边界是论断的核心。承诺告诉我们代理是否已稳定，而非是否正确。一个运行时监控器从隐藏状态中检测不一致轨迹，AUROC高达0.97（更严格划分下为0.85–0.88），而一种提示干预将行为方差降低了28%（相对于令牌匹配对照），同时统计上准确率无变化。我们还测试了该信号是否可引导自一致性计算；在一个更难的基准上，它仅提供适度帮助，且被一个基于输出的简单基线所匹配。结果是一种针对隐藏过程失败的诊断，具有明确的局限性，而非普遍准确率的提升杠杆。

查看原文

查看缓存全文

缓存时间: 2026/06/23 17:43

论文页面 - 当智能体过早承诺时：诊断LLM智能体的过早承诺

来源：https://huggingface.co/papers/2606.22936

长程智能体可能因过早定型而失败。本文引入了表征性承诺：跨运行隐藏状态的收敛性，用于诊断智能体是否已锁定某一轨迹。

关键发现是，承诺能够预测轨迹一致性，而非正确性。错误承诺的运行与正确承诺的运行可能共享相同的收敛特征。因此，跨运行间的一致并不总是智能体正确的证据；它可能仅意味着智能体已变得自信且定型。

实际用途在于监控：检测智能体何时已定型，然后决定是否需要验证、重新采样或延期处理——而非将一致性视为信任。

当代理过早承诺：诊断LLM代理的过早承诺

论文页面 - 当智能体过早承诺时：诊断LLM智能体的过早承诺

相似文章

STALE：LLM智能体能否识别记忆何时失效？

LLMs中的隐藏潜在状态偏移：为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

多智能体LLM商议中的隐藏锚点

TeamTR：多智能体LLM协调的信任域微调

从自信地宣告完成到悄然失败：描述LLM智能体中的虚假成功

提交意见反馈