LLM代理中的忠实不确定性：实践中校准与效用权衡

Reddit r/MachineLearning 2026/06/04 14:53 新闻

llm-agents calibration hallucination uncertainty metacognition agent-systems verification

摘要

一位从业者讨论了LLM代理中的校准与效用权衡，分享了基于验证器的流水线经验，该流水线将幻觉工具调用减少了约60%，但引入了延迟成本并丢失了简单的正确答案。

谷歌关于元认知减少幻觉的论文提出了一个在基准测试中未被充分重视的区别。校准不是为了更频繁地正确。而是关于将置信度与正确性匹配。一个完美校准的模型仍然可能有25%的时间出错。它只是不假装不是这样。在智能体系统中，这种区别比在聊天中更为重要。一个给出模糊回答的对话模型有点烦人。一个拥有工具访问权限的智能体基于错误前提自信地行动是危险的。我一直在一个小型基于验证的编码设置中尝试这一点，通过将流水线分为产生任务图的计划阶段，然后在任何昂贵的工具被调用之前运行验证器。风险在于模型即使在自己推测时也信任自己的推理。接地有帮助，但它与校准不同。一种实用模式：计划阶段产生任务图，然后一个轻量级的验证器检查计划是否与可用证据一致。这在我的设置中捕获了大约60%的幻觉工具调用，在它们执行之前。缺点是效用税。额外的验证增加了延迟。将幻觉从25%降低到5%会损失大约一半的简单正确答案，这与论文一致。我目前的折衷方案：让计划层标记低置信度任务以供人工审查，但自动执行高置信度任务。审查者只看到边缘案例，而不是淹没在每个步骤中。尴尬的是，大多数智能体堆栈仍然将置信度视为日志细节，而不是控制面。

查看原文

LLM代理中的忠实不确定性：实践中校准与效用权衡

相似文章

通过溯源分析防范LLM代理失对齐

验证者税：工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

CalVerT：使用校准验证器遥测增强智能体，改善知识密集型任务中的行动与学习

LLM代理已经知道何时调用工具——甚至无需推理

LLM代理的一致性如何？在多步骤工具调用流程中测量行为可重现性

提交意见反馈