基于信息增益的LLM代理中的不确定性感知澄清

arXiv cs.AI 2026/06/03 04:00 论文

llm-agents uncertainty clarification information-gain reinforcement-learning tool-use user-intent

摘要

提出了一种目标导向的澄清框架，利用信息增益奖励训练LLM代理，在用户指令不明确的情况下提出有效的澄清问题，在仅增加少量交互开销的情况下，将任务成功率提升了3.7%。

arXiv:2606.03135v1 公告类型：新提交摘要：大语言模型（LLM）代理通常在不明确的用户指令下运行，其中用户意图的潜在不确定性会导致错误工具行为。为了应对这一挑战，我们提出了一种目标导向的澄清框架，将澄清行为与歧义消除对齐。我们方法的核心是信息增益奖励，该指标通过衡量由澄清交互产生的贝叶斯信念更新朝向真实目标的程度，来量化澄清问题的效用。我们利用此奖励训练澄清器（LLM），以优化高信息增益，确保澄清有效减少不确定性并改进代理-工具-用户环境中的任务完成。我们在一个增强澄清的$\tau$-Bench环境中验证了我们的框架，跨五个异构骨干网络进行了跨代理评估。实证结果表明，与无澄清基线相比，我们的方法始终将成功率提高了3.7\%，而平均仅增加0.3个总交互步骤。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:42

# 基于信息增益的LLM代理中不确定性感知澄清

来源：https://arxiv.org/html/2606.03135

###### 摘要

大语言模型 \(LLM\) 代理通常运行在用户指令未明确指定的场景下，这导致关于用户意图的潜在不确定性会引发错误的工具操作。为解决这一挑战，我们提出了一种目标导向的澄清框架，将澄清行为与歧义消除对齐。该框架的核心是信息增益奖励（Information Gain Reward），这是一种通过衡量澄清交互导致的贝叶斯信念更新向真实目标偏移程度，来量化澄清问题效用的指标。我们利用该奖励训练澄清器 \(LLM\)，以优化高信息增益，确保澄清能有效降低不确定性，并提升代理-工具-用户环境中的任务完成度。我们在一个增强型τ\-Bench环境中验证了该框架，并对五个异构基座模型进行了跨代理评估。实证结果表明，与无澄清基线相比，我们的方法始终能将成功率提升3.7%，同时平均仅增加0.3个总交互步骤。

机器学习，ICML

## 1 引言

大语言模型 \(LLM\) 代理近期在利用外部工具以及跨多样现实应用场景执行多步决策方面表现出显著能力\(Qu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib20)；Yao等人，2022 (https://arxiv.org/html/2606.03135#bib.bib107)；Wölflein等人，2025 (https://arxiv.org/html/2606.03135#bib.bib35)\)。通过与各种外部工具的交互，这些代理能够完成涉及规划、推理和迭代反馈的复杂任务\(Wölflein等人，2025 (https://arxiv.org/html/2606.03135#bib.bib35)\)。然而，在实际交互环境中，用户指令往往*未明确指定*或模糊不清，其真实意图的关键方面隐含不表\(Yehudai等人，2025 (https://arxiv.org/html/2606.03135#bib.bib26)；Qi等人，2025 (https://arxiv.org/html/2606.03135#bib.bib36)\)。这种模糊的用户需求给使用工具的代理带来了根本性挑战：过早或错误的工具操作可能导致不可逆的错误、脆弱的执行路径以及任务失败\(Wang等人，2024 (https://arxiv.org/html/2606.03135#bib.bib33)\)。

请参阅图注

图1：τ\-零售轨迹中的澄清示例。当初始工具调用因信息缺失或未指定而失败时，澄清器会提出有针对性的后续问题（高亮显示），以便从用户处获取所需约束。通过此交互提供的额外信息使得代理能够使用修正后的工具调用继续执行并完成任务。

处理未指定用户指令的常见方法是在行动之前提出澄清问题，如图1 (https://arxiv.org/html/2606.03135#S1.F1)所示，以消除歧义\(Clark，1996 (https://arxiv.org/html/2606.03135#bib.bib32)；Zou等人，2023 (https://arxiv.org/html/2606.03135#bib.bib28)\)。虽然人类助手能自然识别缺失信息并寻求澄清，但这种能力在基于LLM的代理中尚未成熟\(Rao和Daumé III，2018 (https://arxiv.org/html/2606.03135#bib.bib27)\)。一个关键挑战在于，LLM主要被训练用于回答问题，而非判断何时需要澄清或如何构思澄清。因此，现有的训练流程对澄清的必要性或有效性提供的指导甚少\(Fu等人，2020 (https://arxiv.org/html/2606.03135#bib.bib22)；Ouyang等人，2022 (https://arxiv.org/html/2606.03135#bib.bib94)\)，往往使此类行为隐含或与内部推理纠缠不清\(Suri等人，2025 (https://arxiv.org/html/2606.03135#bib.bib24)\)。此外，训练LLM进行澄清的困难源于监督信号的不一致：现有标注通常奖励表层的流畅性，而未能捕捉问题降低需求不确定性的能力\(Zhang等人，2023 (https://arxiv.org/html/2606.03135#bib.bib154)\)。缺乏关于不确定性减少的明确信号，模型倾向于生成通用、安全但信息价值有限的问题\(Szymanski等人，2025 (https://arxiv.org/html/2606.03135#bib.bib150)；Son等人，2024 (https://arxiv.org/html/2606.03135#bib.bib151)\)，难以向真正有针对性的信息寻求行为演化。为应对这些挑战并超越主观监督，我们在不确定性感知学习的背景下重新定义了澄清问题。受此视角启发，我们提出一个信息论框架，通过衡量澄清问题对降低用户真实目标不确定性的影响来量化其效用。具体来说，我们将澄清过程建模为贝叶斯信念更新，并通过衡量澄清交互后模型概率质量向真实目标的偏移来量化问题的效用。该公式提供了一个面向性能的目标，直接将提问策略与有效的歧义消除联系起来。然后，我们利用这一内在奖励信号驱动解耦优势策略优化（DAPO）\(Yu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib4)\)，引导代理进化出明确针对缺失信息恢复而非表层对话行为的提问策略。

本文研究将澄清视为一种基于执行的信息获取问题：代理仅在预期提问能降低对潜在用户目标的不确定性并改善下游工具使用时才进行干预。我们在一个增强型τ\-Bench设置中评估该公式，其中用户意图是部分可观察的，工具反馈会暴露执行失败，要求代理通过交互式澄清而非直接获取完整目标来进行恢复。我们进一步通过训练动态分析、代理与澄清有效性的上限、触发频率以及跨代理泛化等全面分析来验证该框架。

## 2 相关工作

##### 工具增强型代理。大语言模型越来越被定位为能够执行多步推理和决策的、使用工具的代理。这些代理利用各种过程，如规划\(Yao等人，2022 (https://arxiv.org/html/2606.03135#bib.bib107)；Schick等人，2023 (https://arxiv.org/html/2606.03135#bib.bib88)\)、工具调用\(Yuan等人，2025 (https://arxiv.org/html/2606.03135#bib.bib5)；Zhu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib17)；Wu等人，2024b (https://arxiv.org/html/2606.03135#bib.bib18)\)以及反馈驱动执行\(Lu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib11)；Wu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib14)；Liu等人，2023b (https://arxiv.org/html/2606.03135#bib.bib9)\)。为了评估代理在复杂、工具丰富的环境中的行为，人们提出了各种基准和场景。例如，\(Qu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib20)\)专注于工具效率，\(Liu等人，2023a (https://arxiv.org/html/2606.03135#bib.bib37)\)提供了代理任务评估的广泛框架，\(Andriushchenko等人，2024 (https://arxiv.org/html/2606.03135#bib.bib13)\)则针对对抗性环境中的鲁棒性。这些多样化的基准\(Wang等人，2024 (https://arxiv.org/html/2606.03135#bib.bib33)；Andriushchenko等人，2024 (https://arxiv.org/html/2606.03135#bib.bib13)；Xu等人，2024 (https://arxiv.org/html/2606.03135#bib.bib12)；Li等人，2024b (https://arxiv.org/html/2606.03135#bib.bib16)；Wu等人，2024a (https://arxiv.org/html/2606.03135#bib.bib10)\)为代理在不同应用领域的表现提供了宝贵见解。然而，现有代理框架主要针对定义明确的任务优化工具调用，缺乏处理现实世界指令歧义的显式机制，常常将澄清与执行混为一谈。为解决这一问题，我们的工作利用τ\-Bench\(Yao等人，2024 (https://arxiv.org/html/2606.03135#bib.bib31)\)的动态交互能力来显式优化澄清策略。

##### 澄清学习与对齐信号。澄清问题是消除歧义的关键机制。虽然基础性研究强调了其在人类交流中建立共同基础的必要性\(Clark，1996 (https://arxiv.org/html/2606.03135#bib.bib32)；Traum和Larsson，2003 (https://arxiv.org/html/2606.03135#bib.bib21)；Yizhou等人，2024 (https://arxiv.org/html/2606.03135#bib.bib141)；Zhang等人，2024 (https://arxiv.org/html/2606.03135#bib.bib140)\)，近期进展已将此机制扩展到对话式搜索\(Aliannejadi等人，2019 (https://arxiv.org/html/2606.03135#bib.bib139)\)和主动不确定性降低策略\(Zou等人，2023 (https://arxiv.org/html/2606.03135#bib.bib28)；Xia等人，2025 (https://arxiv.org/html/2606.03135#bib.bib7)；Li等人，2024a (https://arxiv.org/html/2606.03135#bib.bib6)\)。虽然当前工作主要集中在评估\(Zhou等人，2025 (https://arxiv.org/html/2606.03135#bib.bib138)\)或静态问题选择\(Choudhury等人，2025 (https://arxiv.org/html/2606.03135#bib.bib143)\)，它们往往忽视了学习使用工具的代理的澄清策略。与此同时，IGPO\(Wang等人，2025a (https://arxiv.org/html/2606.03135#bib.bib142)\)为多轮代理制定了基于信息增益的优化，其假设目标答案事先已知。与现有方法（在预定义答案目标或固定澄清候选上运行）相比，我们的设置考虑了在线推断潜在用户目标、以工具状态和执行反馈为条件、处理自由格式用户响应、并学习摊销式澄清策略（而非仅从静态问题中选择或针对已知答案槽进行优化）的使用工具的代理。尽管新兴的策略优化框架如GRPO\(Shao等人，2024 (https://arxiv.org/html/2606.03135#bib.bib144)；Wang等人，2025b (https://arxiv.org/html/2606.03135#bib.bib29)\)和DAPO\(Yu等人，2025 (https://arxiv.org/html/2606.03135#bib.bib4)\)为学习此类行为提供了稳健机制，但将其应用于澄清仍具有挑战性：标准的对齐方法通常依赖于人类或基于LLM的判断器，这些判断器优先考虑表层文本质量而非信息价值\(Chaudhari等人，2025 (https://arxiv.org/html/2606.03135#bib.bib30)\)。为解决此问题，我们提出一个信息论框架，显式衡量问题解决未明确用户意图的能力。具体来说，我们优化期望信息增益（EIG）以量化目标不确定性的降低。这使得策略优化能够明确针对不确定性降低，最大化信息增益以促进成功的任务执行。

请参阅图注

图2：摊销式贝叶斯实验设计框架概览。模型执行在策略采样以生成候选问题。这些候选由我们的信念更新奖励进行评估，该奖励将效用量化为真实目标G∗G^\{\*\}的教师强制对数似然的偏移（贝叶斯信念更新）。作为难以处理的期望信息增益的摊销式替代，该信号指导DAPO更新，引导策略朝着最大化降低目标不确定性的澄清方向前进。

## 3 方法

在本节中，我们提出一个用于学习对齐驱动的澄清策略的框架。我们首先介绍τ\-Bench中的基于执行的交互协议（第3.1节），接着介绍数据构建过程（第3.2节）。第3.3节详细阐述了摊销式贝叶斯实验设计及其在形成信息增益奖励中的作用，而第3.4节解释了DAPO算法如何利用此奖励来优化澄清器以解决任务歧义。

### 3.1 环境与交互协议

我们在τ\-Bench\(Yao等人，2024 (https://arxiv.org/html/2606.03135#bib.bib31)\)上进行研究，它提供了一个基于部分可观察马尔可夫决策过程（POMDP）的工具代理交互环境。为处理用户歧义，我们用可插拔的基于LLM的澄清器模块扩展了这个交互循环，如图1 (https://arxiv.org/html/2606.03135#S1.F1)所示。当代理发出工具调用at∈Atoola\_\{t\}\in\mathcal\{A\}\_\{\text\{tool\}\}并收到相应观测oto\_\{t\}时，澄清器评估执行反馈是否揭示了潜在歧义或缺失的关键任务信息。如果是，则生成一个简短的后续问题；否则，不产生澄清轮次。我们将重点放在学习一个基于执行反馈来优化是否干预以及寻求何种信息的澄清策略。此过程产生一个交互轨迹，定义为：
τ=\(U,\(at,ot,Qt,At\)t=1T,G\)，
其中UU表示初始模糊指令，GG表示用户的潜在真实目标。虽然在交互期间代理无法观察到GG，但它指导用户模拟器的响应，并作为计算我们信息增益奖励的参考。在每个步骤tt，代理执行工具动作ata\_\{t\}并观测oto\_\{t\}。根据此执行反馈，澄清器可能发布一个澄清问题QtQ\_\{t\}，并在下一次行动之前从用户模拟器收到相应的响应AtA\_\{t\}。如果在步骤tt未进行澄清，则设Qt=At=∅Q\_\{t\}=A\_\{t\}=\varnothing。这些轨迹是优化我们澄清器策略的基础。

### 3.2 数据构建

为了构建用于策略优化的数据集，我们处理来自τ\-Bench的交互轨迹，将其范围限制在前16个代理步骤，以专注于歧义消除。从这个过滤后的子集中，我们保留最终数据集共2,6762\{,\}676个步骤级实例，其中每个数据点由对话历史xx和τ\-Bench提供的任务定义用户目标GG组成。我们进一步对原始用户目标进行归一化，以获得一个干净、规范的目标表示G∗G^\{\*\}，该表示在整个论文中作为奖励计算的监督目标。数据构建过程以及从GG到G∗G^\{\*\}的目标转换细节见附录6.1 (https://arxiv.org/html/2606.03135#S6.SS1)。

### 3.3 摊销式贝叶斯实验设计

为了学习*何时*以及*澄清什么*，我们从贝叶斯实验设计（BED）\(Chaloner和Verdinelli，1995 (https://arxiv.org/html/2606.03135#bib.bib3)\)的角度形式化澄清生成，并训练一个澄清器来提出预期能降低关于用户潜在目标G∗G^\{\*\}不确定性的问题。由于在交互设置中直接优化此目标难以处理，我们通过一个摊销式训练流程来近似实验设计原则。

##### 理论目标。上述摊销式训练流程可以被视为以下理想化贝叶斯目标的近似。形式上，令G∗G^\{\*\}为目标

基于信息增益的LLM代理中的不确定性感知澄清

相似文章

面向LLM Agent澄清请求的不确定性分解

知道何时提问: 分层语言代理的自我门控澄清

InfoMem: 使用答案条件信息增益训练长上下文记忆代理

大型语言模型能否对检索到的信息保持审慎态度？

超越监督式澄清：利用LLM重写输入以辅助对话篇章解析

提交意见反馈