知道何时提问: 分层语言代理的自我门控澄清

arXiv cs.AI 2026/06/11 04:00 论文

self-gated-clarification hierarchical-agents action-rating information-seeking llm classification taxonomy

摘要

本文提出ActionRating，一种将澄清置于代理的动作空间内，与导航共享一个顺序标尺的公式，实现了两种信息寻求模式（强制性和机会性）。在分层分类法基准测试中，使用9个LLM的实验表明，机会性澄清提高了准确性和信息寻求效率。

arXiv:2606.11349v1 Announce Type: new 摘要：在分层推理中，失败通常起源于中间决策点，代理在没有意识到缺乏关键信息的情况下错误地选择了一个分支。我们不将澄清视为外部不确定性触发器，而是提出ACTION-RATING，这是一种将澄清置于代理动作空间内，与导航共享一个顺序标尺的公式，使得在每个决策点上提问与行动直接竞争，并且在中间状态下帮助寻求变得可观察。从代理自身的评分中出现了两种结构不同的信息寻求模式：强制性（没有可行分支）和机会性（尽管有领先候选但存在剩余不确定性）。在协调关税表分类（30,000节点分类法、三个基准、来自4个家族的9个LLM）上，我们观察到从强制性澄清到机会性澄清的转变，信息寻求有效性（ISE）——一个局部诊断指标，定义为帮助交互后正确下一步导航步骤的比例（非最终任务指标）——从50%上升到74%。三个诊断对比未能重现这种结构。一个可分离性测试表明，当答案质量下降时（准确率下降18.8%），信息寻求模式（模式分割、ISE排序）仍然存在，支持了代理寻求帮助的位置与获得帮助的质量之间的经验分离。在受控答案通道下，10位数的准确率提升达到+16.2%；我们将其理解为更好的定位所能释放的上限，而非部署估计。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:47

# 自门控澄清机制：面向层次化语言代理

来源：https://arxiv.org/html/2606.11349

Aijing Gao, Yiming Kang, Mengdie Flora Wang, Jae Oh Woo
Amazon Web Services
{gaijing, ymkang, florawan, jaeohwoo}@amazon.com

###### 摘要

在层次化推理中，失败往往源于中间决策点——代理在尚未意识到其缺乏关键信息时，就错误地走入了某个分支。我们并未将澄清视为一个外部不确定性触发机制，而是提出了**ActionRating**这一框架，它将澄清置于代理自身的动作空间中，并与导航动作共享一个有序量表。这样一来，在每个决策点上，“提问”与“行动”直接竞争，从而使得中间状态下的求助行为变得可观测。从代理自身的评分中涌现出两种结构上截然不同的信息寻求模式：**强制性**（无可行分支）和**机会性**（存在领先候选，但仍有残余不确定性）。在协调关税制度（HTS）分类任务（包含30,000多个节点的分类体系，三个基准测试，跨越4个系列的9种大语言模型）上，我们观察到从强制性澄清向机会性澄清的阶段性转变。信息寻求效能（ISE）——一个局部诊断指标，定义为求助后代理下一步导航动作正确的比例（非最终任务指标）——从50%提升至74%。三种诊断性对比实验均未能复现此结构。一项可分离性测试表明，即使在回答质量下降（准确率降低18.8%）的情况下，信息寻求模式（模式划分、ISE排序）仍然保持不变，这支持了“代理寻求帮助的地点”与“它获得的帮助质量”之间可进行实证分离的结论。在受控回答通道下，10位数字精度下的准确率最高提升了16.2%；我们将此解读为通过改进定位能力所能释放的性能上限，而非实际部署的性能估计。

**了解何时提问：面向层次化语言代理的自门控澄清机制**

Aijing Gao, Yiming Kang, Mengdie Flora Wang, Jae Oh Woo
Amazon Web Services
{gaijing, ymkang, florawan, jaeohwoo}@amazon.com

![参见标题图表说明](图1)

**图1：ActionRating概述。(A) 流程图。** 代理对所有候选动作（包括`need_clarify`）在共享的[0,100]有序量表上进行评分；当澄清动作的评分超过阈值τ时触发。涌现出两种模式：**强制性**（无可行分支）和**机会性**（存在领先分支，但澄清动作评分仍高于τ）。受控回答通道固定了回答质量，从而将“寻求帮助的地点”与“获得的信息内容”分离开来。**(B, C) 研究发现**（见§5.1, §5.4；此处为预览，非流程图组成部分）。当τ=10时，机会性占比从0%升至88.7%，ISE从50%提升至74%，准确率从50.8%提升至67.0%（B）。将受控回答替换为自动生成的回答导致准确率大幅下降（降低18.8%），但保留了模式划分和ISE排序（C），这支持了在受控降解条件下，帮助定位与回答来源质量之间存在实证分离。

## 1 引言

依赖层次化结构（如医疗代码、法律法规、产品分类体系）进行推理的语言代理面临一个反复出现的失败模式：一旦代理错误地进入了某个中间分支，其后的每一步都只是在深化一个本应更早发现的错误（Yao等人，2023b, a; Shinn等人，2023; Press等人，2023; Dziri等人，2024）。最终答案的准确率只能告诉我们系统*失败*了，却无法指出系统是在*哪个*决策点上因缺乏信息而无法安全推进。核心问题看似简单却至关重要：**代理应在何时选择求助，而非自行决策？**

#### 现有方法的不足。
现有设计通常将澄清视为推理轨迹之外的处理：例如设置置信度阈值（Kadavath等人，2022）、通过提示指令（“如果不确定就提问”）、或基于采样结果的不一致性（Kuhn等人，2023）。这些机制将“决定提问”与“决定行动”分离开来，留下了两个未解的问题。首先，它们无法使信息寻求行为在*结构上可观测*：我们无法区分一个代理是因为没有可行分支而提问，还是为了降低残余不确定性而提问。其次，它们混淆了“寻求帮助的地点”与“获得帮助的质量”：一个提问更多的代理可能仅仅因为获得了更好的信息而表现更佳。

#### 将澄清视为一种动作。
我们提出**ActionRating**框架，通过将澄清置于代理自身的动作空间内（图1），同时解决了上述两个问题。代理在共享的[0,100]有序量表上对候选的下一步动作（包括专门的澄清动作）进行评分，使得在每个决策点上，“提问”与“行动”直接竞争。这种共享量表的竞争机制使得对帮助的局部需求变得可观测，而无需外部的不确定性估计器。从代理自身的评分中自然涌现出两种结构上不同的模式：**强制性**求助——此时澄清动作评分最高，且无任何导航分支可行；以及**机会性**求助——此时存在一个领先分支，但在正式选择前，一个有针对性的问题可以降低残余不确定性。

#### 分离帮助定位。
为了清晰分析信息寻求行为，我们必须将“寻求帮助的地点”与“获得的信息”分离开来。我们将ActionRating与一个**受控回答通道**配对，该通道固定了回答的质量，类似于在分析一个变量时将另一个实验因素保持恒定。我们还追踪**信息寻求效能（ISE）**，定义为代理在求助后其下一步导航动作落在正确路径上的比例，将其作为局部效用探针（§5.2）。模式转换本身仅显示结构性变化，而非效用；ISE本身衡量局部有用性，而非全局结构；仅看准确率则会被回答质量所混淆。三者结合，提供了汇聚性证据。

#### 测试平台。
我们在**协调关税制度（HTS）分类**任务上进行评估。这是一个包含30,000多个节点的语言介导分类体系，其中物品描述为自由文本，分类标题为自然语言定义，而澄清本身也是一种语言生成行为。HTS提供了必要的结构前提（深层分支、反复的中间承诺、真实存在的信息缺口以及可验证的真实标签），使得测量问题具有非平凡意义（§4.1）。

#### 贡献。
(1) **框架。** 我们将澄清构建为一种可与导航动作在共享有序量表上竞争的可选择动作，从而形成一种自门控机制，使信息寻求行为直接可观测。
(2) **行为分析。** 该框架揭示了一个阶段性的转变——并非更多的提问，而是从强制性澄清到机会性澄清的结构性转变，同时ISE从50%提升至74%。三种诊断性对比（提示级别、采样级别、仅评分）均未能复现此转变。
(3) **可分离性。** 当回答质量下降时，准确率大幅降低（下降18.8%），而信息寻求模式（模式划分、ISE排序）得以保留，这支持了在受控降解条件下，帮助定位与回答来源质量之间的实证分离。在受控回答通道下的准确率提升（10位数字精度下提升16.2%）被解读为通过改进定位能力所能释放的性能上限，而非实际部署的性能估计。评估覆盖9种大语言模型（4个系列）、三个基准测试、组件消融实验和阈值敏感性分析。

## 2 相关工作

我们的工作与以下研究领域交汇：用于结构化推理的LLM代理（Yao等人，2023b, a; Shinn等人，2023; Zhou等人，2024; Schick等人，2024; Liu等人，2023; Summers等人，2024）、自我评估与不确定性估计（Wang等人，2023a; Madaan等人，2023; Cobbe等人，2021; Lightman等人，2024; Kadavath等人，2022; Kuhn等人，2023; Lin等人，2022; Zheng等人，2023）、信息寻求与澄清（Settles, 2012; Wang等人，2023b; Aliannejadi等人，2019; Zamani等人，2020; Rao and III, 2018; Rahmani等人，2023）、选择性预测与弃权（Geifman and El-Yaniv, 2017; El-Yaniv and Wiener, 2010; Kamath等人，2020）、层次化分类（Jr. and Freitas, 2011; Kowsari等人，2017; Shimura等人，2018; Banerjee等人，2019; Zhou等人，2020; Mao等人，2019）以及多步推理（Wei等人，2023; Zhou等人，2023; Khot等人，2023; Gao等人，2023; Nye等人，2021; Zelikman等人，2022; Hao等人，2023; Besta等人，2024; Huang等人，2024; Dua等人，2022）。完整讨论见附录H。以下三个区别界定了我们的贡献位置。**首先**，现有代理框架处理的是扁平或轻度结构化空间上的通用推理；我们的目标是深度层次化分类体系，其中每一步都会缩小搜索空间。**其次**，自我评估方法是对最终答案或采样一致性进行评分；我们则是对候选*动作*（包括澄清）在共享有序量表上进行评分，使得澄清与导航直接竞争，而非由最终答案置信度或采样不一致触发。**第三**，先前的澄清工作假设存在外部不确定性估计器或人类对话者；我们的机制完全基于代理自身的动作评级，是*自门控*的。

## 3 框架

### 3.1 将层次化导航建模为MDP

我们将层次化推理建模为一个情景式马尔可夫决策过程（MDP）（Puterman, 1994）：M = (S, A, T, R)。
**状态**是分类节点，附加物品描述和导航历史。
**动作**包括五种类型：`traverse_child`, `backtrack`, `need_clarify(q)`, `jump(c)`, 和 `confirm`。
**转移**由选定的分类动作确定性地触发（导航环境是一个固定的树结构）；随机性通过LLM策略 π(a|s) 以及由 `need_clarify` 调用的回答生成通道引入。
**奖励**：正确分类给予 +1 奖励，错误分类给予 -1 奖励。

### 3.2 ActionRating：将提问作为一种可选择的动作

核心思想是通过将澄清置于代理自身的动作空间中（而非将其视为一个外部决策），使得需要帮助的状态变得可观测（自门控重入循环的具体示例见图4，附录A）。**ActionRating** 要求代理在做出最终决策前，对其排名前K的候选动作（包括一个专门的 `need_clarify` 动作）在[0,100]有序相关性量表上进行评分（完整评分提示见附录P.3）。在步骤 t，代理生成：
{(ai, si, ri)}i=1^K, a* = argmax_i si
其中 ai 是第 i 个候选动作，si ∈ [0,100] 是其有序评分，ri 是一句话的理由，a* 是最终选定的动作。动作评分步骤本身在每一步的单个导航调用内实现。然而，当澄清被触发时，整个系统在该步骤会额外产生子代理和重入调用（见§6中的准确率-成本分析）。评分有两个功能：(1) 它通过“提问与行动”的竞争使需要帮助的状态直接可观测，产生了作为我们主要分析对象的强制性/机会性区分；(2) 它在做出承诺前强制对候选方案进行比较性审议。在我们的实验中（附录I），行为的改变主要源自自门控的求助行为，而非单纯的评分行为，这表明评分的主要价值在于能够观察和门控需要帮助的状态。

#### 受控回答通道。
为了将帮助定位与回答质量分离开来，我们使用了**受控回答通道**，类似于在分析一个变量时将另一个实验因素保持恒定。两个成对条件完善了我们的设计：(1) **受控条件**，固定回答质量于高水平，因此行为差异主要反映帮助定位的变化，而非回答质量的变化；(2) **降解条件**，移除特权访问作为一项*可分离性测试*：如果信息寻求模式在准确率崩溃时仍然存活，则为帮助定位与回答来源质量之间的实证分离提供了证据（§5.4）。受控通道模拟一个知识渊博的产品负责人，能够提供权威的属性事实（材料成分、预期用途、制造方法），但明确的分类代码被屏蔽（见附录P.1）。事后审计确认，96%的回答仅包含领域或技术规格知识（§5.4）。因此，准确率数字是上限，而非部署估计值。

### 3.3 自门控信息寻求

评分的核心特性在于，`need_clarify` 与导航动作在同一量表中直接竞争。当 `need_clarify` 出现在排名前K且得分 ≥ τ（*澄清阈值*）时，代理在当前节点调用一个**澄清子代理**：该过程包含四个阶段：
(1) **检测**：判断是否存在 i ≤ K 使得 ai = need_clarify 且 si ≥ τ。

知道何时提问: 分层语言代理的自我门控澄清

相似文章

基于信息增益的LLM代理中的不确定性感知澄清

面向LLM Agent澄清请求的不确定性分解

@dair_ai: PwC 的一篇精彩论文。在智能体澄清方面，“越早越好”一直是默认直觉。新论文声称这……

面向法律探究型对话代理的双层次对话策略学习

CHAL：分层代理语言委员会

提交意见反馈