LLM代理中的忠实不确定性:实践中校准与效用权衡
摘要
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
谷歌关于元认知减少幻觉的论文提出了一个在基准测试中未被充分重视的区别。校准不是为了更频繁地正确。而是关于将置信度与正确性匹配。一个完美校准的模型仍然可能有25%的时间出错。它只是不假装不是这样。在智能体系统中,这种区别比在聊天中更为重要。一个给出模糊回答的对话模型有点烦人。一个拥有工具访问权限的智能体基于错误前提自信地行动是危险的。我一直在一个小型基于验证的编码设置中尝试这一点,通过将流水线分为产生任务图的计划阶段,然后在任何昂贵的工具被调用之前运行验证器。风险在于模型即使在自己推测时也信任自己的推理。接地有帮助,但它与校准不同。一种实用模式:计划阶段产生任务图,然后一个轻量级的验证器检查计划是否与可用证据一致。这在我的设置中捕获了大约60%的幻觉工具调用,在它们执行之前。缺点是效用税。额外的验证增加了延迟。将幻觉从25%降低到5%会损失大约一半的简单正确答案,这与论文一致。我目前的折衷方案:让计划层标记低置信度任务以供人工审查,但自动执行高置信度任务。审查者只看到边缘案例,而不是淹没在每个步骤中。尴尬的是,大多数智能体堆栈仍然将置信度视为日志细节,而不是控制面。
相似文章
LLM代理已经知道何时调用工具——甚至无需推理
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
LLM代理的一致性如何?在多步骤工具调用流程中测量行为可重现性
本文系统性地测量了LLM代理在多步骤工具调用流程中的行为可重现性,涉及1140条轨迹,发现了'结构一致性,参数变异性'的模式:代理可靠地按相同顺序选择工具,但参数有所不同,并且结构一致性能够预测任务的成功。
当规划正确执行却失败时:论基于LLM的多智能体系统的认知校准
本文识别了基于LLM的多智能体系统中的一种失败模式,即由于智能体错误判断自身知识(认知校准不当)而导致规划失败,并提出EPC-AW工作流,通过信息一致性和认知状态细化将系统级成功率提升9.75%。
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
大语言模型搜索代理的推理时预算控制
本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。