面向LLM Agent澄清请求的不确定性分解

arXiv cs.AI 2026/06/20 04:00 论文

摘要

本文针对LLM Agent提出了一种基于提示的不确定性分解方法，将行动置信度与请求不确定性分离，使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估，显示出显著改进。

arXiv:2606.19559v1 公告类型：新摘要：最近的立场文件认为，经典的偶然/认知不确定性框架不足以应对交互式大语言模型（LLM）Agent的需求，并呼吁建立一种对未充分指定问题敏感、可分解且可沟通的不确定性表示，从而解锁Agent的新能力，如主动寻求澄清和共享心智模型构建。实际部署中的约束——黑盒API、交互延迟预算以及缺少标注轨迹——排除了基于对数概率、多次采样和基于训练的方法，使得基于提示的估计成为在部署时呈现此类信号的最可行方案。我们通过一种简单的基于提示的分解方法回应了这一需求，该方法将行动置信度与请求不确定性（u）分离，使Agent能在任务规范模糊时主动提问。为评估该方法，我们引入了两个澄清增强基准（WebShop-Clarification 和 ALFWorld-Clarification），其中50%的任务被故意设定为未充分指定，并在五个LLM骨干网络（GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B）上系统地将所提出的分解方法与ReAct+UE和不确定性感知记忆（UAM）在这些变体以及标准WebShop、ALFWorld和用于故障检测的REAL基准上进行了比较。在五个骨干网络上取平均，所提出的分解方法在ALFWorld-Clarification上比ReAct+UE提升了73%的澄清F1分数，比UAM提升了36%；在WebShop-Clarification上，每个骨干网络的澄清F1分数均领先；在ALFWorld-Clarification上，五个骨干网络中有四个领先，表明该增益可泛化到单个LLM之外。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:31

# 面向LLM智能体澄清请求的不确定性分解 来源：https://arxiv.org/html/2606.19559 Gregory Matsnev AI人才中心，ITMO大学 俄罗斯圣彼得堡197101 gregory\.matsnev@niuitmo\.ru ###### 摘要 近期的立场论文指出，经典的偶然/认知不确定性框架不足以应对交互式大语言模型\(LLM\)智能体，并呼吁构建欠规范感知、可分解且可传递的不确定性表示，从而解锁诸如主动澄清请求与共享心智模型构建等新型智能体能力。实际部署中的约束——黑盒API、交互延迟预算以及缺乏标注轨迹——排除了基于logprob、多次采样和基于训练的方法，使得基于提示的估计成为部署时呈现此类信号最可行的技术路线。针对这一需求，我们提出一种简单的基于提示的分解方法，将动作置信度与请求不确定性\(uu\)分开，使智能体能够在任务规范模糊时请求澄清。为评估该方法，我们引入了两个增加澄清环节的基准测试（WebShop-Clarification和ALFWorld-Clarification），其中50%的任务被故意欠规范，并在五个LLM主干（GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B）上系统地将所提分解方法与ReAct+UE及不确定性感知记忆（UAM）在这些变体以及标准WebShop、ALFWorld和REAL故障检测基准上进行比较。在五个主干上平均，所提分解方法在ALFWorld-Clarification上的澄清F1比ReAct+UE提升73%，比UAM提升36%，并且在WebShop-Clarification上的每个主干以及ALFWorld-Clarification上五个主干中的四个上均领先，表明这些增益可泛化至单一LLM之外。 *关键词* 澄清请求⋅\\cdot交互式基准测试⋅\\cdotLLM智能体⋅\\cdot基于提示的方法⋅\\cdot不确定性量化 ## 1 引言 基于网络规模语料库训练的大语言模型\(LLMs\)已成为通用推理器，展现出上下文学习\[3 (https://arxiv.org/html/2606.19559#bib.bib1)\]、指令遵循\[31 (https://arxiv.org/html/2606.19559#bib.bib2)\]和思维链推理\[38 (https://arxiv.org/html/2606.19559#bib.bib3)\]能力，且其能力随模型规模可预测地增长\[18 (https://arxiv.org/html/2606.19559#bib.bib4)\]。在此基础上，越来越多的研究工作将LLMs重新用作*交互式智能体*的控制器，这些智能体能够规划、调用工具并在外部环境（如网页界面和家居模拟）中行动\[45 (https://arxiv.org/html/2606.19559#bib.bib5)\]、\[15 (https://arxiv.org/html/2606.19559#bib.bib6)\]、\[39 (https://arxiv.org/html/2606.19559#bib.bib7)\]、\[32 (https://arxiv.org/html/2606.19559#bib.bib8)\]。与单轮问答不同，这些智能体在部分可观测条件下运行：它们接收欠规范的自然语言指令，观察含噪声的环境状态，并需要串联多个推理步骤来完成任务。早期步骤中的微小错误——误解模糊请求、过度信任含噪观测或选择次优动作——可能沿着轨迹传播并产生自信但错误的结果\[47 (https://arxiv.org/html/2606.19559#bib.bib9)\]、\[7 (https://arxiv.org/html/2606.19559#bib.bib10)\]。不确定性估计是缓解此类失败的自然工具\[1 (https://arxiv.org/html/2606.19559#bib.bib11)\]、\[40 (https://arxiv.org/html/2606.19559#bib.bib12)\]。然而，近期的立场论文认为现有不确定性框架对于交互式智能体根本不足。Kirchhof等人\[20 (https://arxiv.org/html/2606.19559#bib.bib13)\]证明传统的偶然/认知二分法在智能体场景中失效：当聊天机器人决定是否提问澄清问题时，同一不确定性既可以被分类为偶然性（在当前时间点不可约）也可被分类为认知性（可通过提问降低），具体取决于建模者的视角。他们提出三个研究方向：当用户未提供完整信息时产生的欠规范不确定性；通过后续问题进行交互式学习以降低上下文不确定性；以及以自然语言而非标量分数传递的丰富输出不确定性。Kim等人\[19 (https://arxiv.org/html/2606.19559#bib.bib14)\]通过智能体可解释性——一种智能体通过多轮交互主动协助人类理解、开发并利用相互心智模型的范式——补充了这一愿景。这些立场论文共同呼吁不确定性方法应当：按来源分解、可向用户传递，并具备超越简单弃权的新智能体能力。

实际部署约束进一步塑造了设计空间。黑盒API访问排除了基于logprob的方法\[8 (https://arxiv.org/html/2606.19559#bib.bib16)\]、\[29 (https://arxiv.org/html/2606.19559#bib.bib17)\]。在长程场景中每一步都进行多次采样会带来过高的延迟和成本\[37 (https://arxiv.org/html/2606.19559#bib.bib18)\]、\[29 (https://arxiv.org/html/2606.19559#bib.bib17)\]。基于训练的校准器需要标注数据和模型访问\[23 (https://arxiv.org/html/2606.19559#bib.bib19)\]、\[35 (https://arxiv.org/html/2606.19559#bib.bib20)\]，而读取内部隐藏状态的白盒方法\[41 (https://arxiv.org/html/2606.19559#bib.bib15)\]同样因封闭API而不可行。因此，基于提示的方法——智能体将不确定性估计作为结构化文本随动作一同输出——成为现实世界智能体部署中最实际可行的方案，尽管其存在已知局限。

然而，现有基于提示的方法每一步仅产生一个标量置信度。这混淆了本质上不同的不确定性来源。智能体报告低置信度可能是因为动作本身困难（例如，有许多类似产品可供选择），也可能是因为用户请求模糊（例如，“给我找件衬衫”但未指定颜色或尺寸）。这两种情况需要不同的回应：前者表明智能体应谨慎行事，后者则表明智能体应请求用户澄清。本文中，我们提出一种简单的基于提示的分解方法，将不确定性分为两个分量：
- •动作置信度\(ctc\_\{t\}\)：基于对任务的当前理解，智能体对其所选动作有助于任务完成的置信度。
- •请求不确定性\(utu\_\{t\}\)：智能体对用户目标是否被完全指定的估计，范围从0（完全指定）到1（缺少关键细节）。

与需要标注轨迹训练的澄清方法不同，我们的方法仅依赖提示，可在黑盒LLM上运行；我们既揭示了通过提示方式获取这种分解的能力，也指出了其局限性。

我们在五个LLM主干（GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B）上，将这种分解方法与两个基于提示的基线——带简单不确定性估计提示后缀的ReAct（ReAct+UE）和不确定性感知记忆（UAM）\[46 (https://arxiv.org/html/2606.19559#bib.bib21)\]——在三个标准交互式基准测试（WebShop、ALFWorld、REAL）和两个增加澄清环节的变体（WebShop-Clarification、ALFWorld-Clarification）上进行比较。在这些变体中，50%的任务被故意欠规范，智能体必须识别出信息缺口并向用户提问。我们还对utu\_\{t\}澄清阈值进行了敏感性分析。我们的贡献包括：
1. 1.对LLM智能体不确定性估计方法的比较分析，表明实际部署约束使基于提示的方法成为唯一可行的技术路线，并激励对其在主动智能体能力方面的系统研究。
2. 2.两个增加澄清环节的基准测试（WebShop-Clarification和ALFWorld-Clarification），其中50%的任务被故意欠规范，从而将澄清请求作为二分类任务进行评估。
3. 3.一种基于提示的分解方法，将动作置信度与请求不确定性分离，实现主动澄清请求，并在五个LLM主干上针对增加澄清的基准测试与ReAct+UE和UAM进行评估。
4. 4.在标准交互式基准测试上对基于提示方法在故障检测方面的实证评估，揭示其能力与局限，并为未来工作提供有前景的方向。

## 2 相关工作

我们从三个线索回顾先前工作。首先综述LLM的单轮不确定性估计方法，其中大部分技术基础由此产生。然后转向将每步不确定性沿多步智能体轨迹传播的方法，并通过对比表格总结各方法族，从而论证我们聚焦于基于提示方法的动机。最后讨论不确定性分解与澄清请求，这是所提方法的直接背景。

### 2.1 LLM中的不确定性估计

LLM的不确定性估计方法涵盖多个族\[40 (https://arxiv.org/html/2606.19559#bib.bib12)\]、\[29 (https://arxiv.org/html/2606.19559#bib.bib17)\]。*多次采样*方法通过抽取多个回答并测量其分歧程度：自一致性\[37 (https://arxiv.org/html/2606.19559#bib.bib18)\]从思维链样本中选取多数答案，而语义熵\[21 (https://arxiv.org/html/2606.19559#bib.bib43)\]、\[9 (https://arxiv.org/html/2606.19559#bib.bib22)\]、核语言熵\[28 (https://arxiv.org/html/2606.19559#bib.bib23)\]、语义嵌入变体\[11 (https://arxiv.org/html/2606.19559#bib.bib40)\]以及黑盒NLG的相似性基分散度量\[22 (https://arxiv.org/html/2606.19559#bib.bib44)\]在语义空间中量化分歧，通过LLM和工具贡献的联合熵建模将这些度量扩展到使用工具的问答系统\[25 (https://arxiv.org/html/2606.19559#bib.bib25)\]，而输入澄清集成\[14 (https://arxiv.org/html/2606.19559#bib.bib26)\]通过对输入的多个澄清版本进行生成和集成来分解不确定性。*基于logprob*的方法利用模型的输出token概率：困惑度\[10 (https://arxiv.org/html/2606.19559#bib.bib46)\]和预测熵\[26 (https://arxiv.org/html/2606.19559#bib.bib45)\]在生成结果上聚合每个token的log概率，而关注相关性的加权变体，如注意转移至相关性\[6 (https://arxiv.org/html/2606.19559#bib.bib47)\]，则根据语义重要性对token重新加权后再聚合。*基于提示*的方法直接要求模型表达置信度\[12 (https://arxiv.org/html/2606.19559#bib.bib24)\]，可选地通过多智能体协商\[42 (https://arxiv.org/html/2606.19559#bib.bib41)\]校准所得分数。*基于训练*的方法学习一个独立的模型——在基础模型输出logprob和/或内部隐藏表示上的探针或重校准器，受答案正确性标签监督：ProbeCal\[23 (https://arxiv.org/html/2606.19559#bib.bib19)\]重校准使用工具的智能体的内部token概率，而MICE\[35 (https://arxiv.org/html/2606.19559#bib.bib20)\]在模型内部激活上训练分类器；其中一些方法进一步利用中间层的内部隐藏状态\[41 (https://arxiv.org/html/2606.19559#bib.bib15)\]。工程工具包如LM-Polygraph\[8 (https://arxiv.org/html/2606.19559#bib.bib16)\]提供这些方法族的统一实现。

上述方法主要针对单轮预测。对于多步智能体，不确定性在每个思考-行动-观察步骤中产生并演化，因此需要传播机制。

### 2.2 智能体轨迹中的不确定性传播

两个近期框架解决了逐步不确定性传播问题。SAUP\[47 (https://arxiv.org/html/2606.19559#bib.bib9)\]使用插件式估计器为每步附加不确定性估计，并通过基于HMM的情景权重进行传播，在仅末步基线上实现了最高20%的AUROC提升。UProp\[7 (https://arxiv.org/html/2606.19559#bib.bib10)\]通过采样轨迹上的点对互信息形式化了传播过程。然而，这两种方法都依赖于黑盒API部署中通常不可用的资源——多次采样、输出logprob或用于训练的标注轨迹——因此在此场景下不实用。BrowseConf\[30 (https://arxiv.org/html/2606.19559#bib.bib27)\]在网页智能体中使用置信度分数进行测试时计算扩展，根据智能体自我评估的不确定性动态分配计算资源。不确定性感知记忆（UAM）\[46 (https://arxiv.org/html/2606.19559#bib.bib21)\]将智能体的置信度分数和自然语言解释包含在动作历史中，使后续步骤能够对累积不确定性进行推理。这种基于提示的传播不需要额外的API调用，因此适用于实际部署。

### 2.3 方法对比概览

表1 (https://arxiv.org/html/2606.19559#S2.T1)提供了面向LLM智能体的不确定性估计方法的系统对比。不同方法在需求（logprob访问、模型内部访问、多次推理、训练数据）和能力（多步支持、澄清）上存在差异。包含完整分类学以供完整性参考，并用于激励我们在第3节 (https://arxiv.org/html/2606.19559#S3)中形式化的设计选择。

### 2.4 不确定性分解与澄清

立场论文认为偶然/认知二分法对于交互式智能体不足\[20 (https://arxiv.org/html/2606.19559#bib.bib13)\]、\[34 (https://arxiv.org/html/2606.19559#bib.bib28)\]，而针对LLM和多模态模型中不确定性来源的实证分析也得出了类似结论\[43 (https://arxiv.org/html/2606.19559#bib.bib42)\]。Kirchhof等人\[20 (https://arxiv.org/html/2606.19559#bib.bib13)\]引入了*欠规范不确定性*——当用户未提供完整信息时产生的不确定性——作为独立于模型知识缺口的类别，并倡导通过后续问题进行交互式学习以及丰富的自然语言不确定性输出。Smith等人\[34 (https://arxiv.org/html/2606.19559#bib.bib28)\]形式化了偶然/认知边界本质上依赖于建模者的视角。这些论点已开始在具体智能体系统中得到实践。SAGE-Agent\[36 (https://arxiv.org/html/2606.19559#bib.bib29)\]训练了一个由POMDP引导的、使用GRPO的澄清器，而Hao等人\[13 (https://arxiv.org/html/2606.19559#bib.bib31)\]在GUI智能体中当不确定性高时触发人在回路中的修正；同时，诸如DeLLMa\[24 (https://arxiv.org/html/2606.19559#bib.bib32)\]和PlanU\[5 (https://arxiv.org/html/2606.19559#bib.bib33)\]等决策理论框架通过效用建模将不确定性与动作选择连接起来。该方向工作中反复出现的一个警告是，智能体往往系统性地过度自信\[17 (https://arxiv.org/html/2606.19559#bib.bib30)\]，这限制了这些方法所依赖信号本身的可靠性。

表1：面向LLM智能体的不确定性估计方法对比概览。"需求"列表明每种方法在单次前向传播之外还需要什么。"多步"表示原生支持轨迹级不确定性。"澄清"表示该方法是否可以在用户澄清时触发。

面向LLM Agent澄清请求的不确定性分解

相似文章

基于信息增益的LLM代理中的不确定性感知澄清

知道何时提问: 分层语言代理的自我门控澄清

通过结构不确定性量化LLM逻辑推理的一致性

LLM代理中的忠实不确定性：实践中校准与效用权衡

观点：大型语言模型中的不确定性量化仅是无监督聚类

提交意见反馈