BALAR:一种用于主动推理的贝叶斯智能体循环

arXiv cs.AI 论文

摘要

本文介绍了 BALAR,这是一种无需训练的贝叶斯智能体循环算法,使大型语言模型能够在多轮交互中进行主动推理并提出澄清性问题。该算法在侦探、谜题和临床诊断基准测试中显示出比基线方法显著的性能提升。

arXiv:2605.05386v1 公告类型:新论文 摘要:大型语言模型越来越多地在交互式环境中运行,其中解决任务需要与用户进行多轮信息交换。然而,大多数现有系统以反应式方式处理对话,缺乏一种合理机制来推理哪些信息缺失以及接下来应提出什么问题。我们提出了 BALAR(用于主动推理的贝叶斯智能体循环),这是一种与任务无关的外部循环算法,无需微调即可实现 LLM 智能体与用户之间的结构化多轮交互。BALAR 维护对潜在状态的结构化信念,通过最大化期望互信息选择澄清性问题,并在当前状态表示不足以解决问题时动态扩展其状态表示。我们在三个不同的基准上评估了 BALAR:AR-Bench-DC(侦探案例)、AR-Bench-SP(思维谜题)和 iCraft-MD(临床诊断)。BALAR 在所有三个基准上均显著优于所有基线方法,在 AR-Bench-DC 上准确率高出 14.6%,在 AR-Bench-SP 上高出 38.5%,在 iCraft-MD 上高出 30.5%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:10

# BALAR:用于主动推理的贝叶斯代理循环

来源:https://arxiv.org/html/2605.05386

Aymen Echarghaoui  
斯坦福大学统计系  

Dongxia Wu  
斯坦福大学计算机科学系  

Emily B. Fox  
斯坦福大学统计系  
斯坦福大学计算机科学系  

###### 摘要

大型语言模型(LLM)越来越多地在交互式环境中运行,其中解决任务需要与用户进行多轮信息交换。然而,大多数现有系统以被动方式处理对话,缺乏一种原则性的机制来推理缺失的信息以及下一步应提出哪个问题。我们提出了 **BALAR**(用于主动推理的贝叶斯代理循环,Bayesian Agentic Loop for Active Reasoning),这是一种任务无关的外部循环算法,无需微调即可实现 LLM 代理与用户之间的结构化多轮交互。BALAR 维持对潜在状态的结构化信念,通过最大化期望互信息来选择澄清性问题,并在当前状态表示不足时动态扩展其状态表示。我们在三个不同的基准上评估了 BALAR:AR-Bench-DC(侦探案例)、AR-Bench-SP(思维谜题)和 iCraft-MD(临床诊断)。在所有三个基准中,BALAR 都显著优于所有基线模型,在 AR-Bench-DC 上的准确率高出 **14.6%**,在 AR-Bench-SP 上高出 **38.5%**,在 iCraft-MD 上高出 **30.5%**。

## 1 引言

大型语言模型(LLM)的现代部署涵盖了用户意图很少明确的领域:一位向医疗 AI 寻求建议的患者可能省略关键症状,客户服务代理必须从模糊的描述中确定用户询问的是哪种产品。在所有这些情况下,瓶颈不在于 LLM 的原始推理能力,而在于缺乏一种原则性的机制来(1)检测提示何时存在歧义,(2)制定有针对性的澄清问题,(3)连贯地整合回复,以及(4)决定何时已收集到足够的信息以提交答案。

现有方法以不同方式解决这一挑战。诸如思维树(Tree-of-Thoughts, ToT)(Yao 等, 2023) 和思维不确定性(Uncertainty-of-Thoughts, UoT)(Hu 等, 2024) 等方法支持单次正向传递之外的多步推理,但它们针对的是不同形式的交互。ToT 侧重于使用 BFS/DFS 对中间推理状态进行内部搜索以维护多个部分解决方案,而 UoT 依赖于交互树的前向模拟来选择后续问题。CollabLLM (Wu 等, 2025) 等交互式方法通过在模拟轨迹上进行微调来学习选择问题,引入了昂贵的训练依赖。MediQ Expert 系统 (Li 等, 2024) 通过固定的 LLM 调用管道运行,而没有用户意图的形式化模型。AR-Bench (Zhou 等, 2025) 和 MediQ (Li 等, 2024) 等基准暴露了这一差距:在其发表时,最先进的 LLM 远远落后于能够访问所有私有信息的 oracle。

我们通过 **BALAR**(用于主动推理的贝叶斯代理循环)来解决这一差距,这是一种**任务无关**、**无需训练**的贝叶斯外部循环。关键见解是将用户意图建模为结构化乘积空间上的潜在离散变量,其中每个维度捕捉潜在歧义的一个方面(例如,*严重程度*、*产品类型*)。BALAR 在“睡眠时”(交互开始前)使用并行 LLM 调用初始化此信念,然后迭代选择与信念互信息最高的未提问(问题,用户)对,在收到每个回复后通过贝叶斯规则更新后验,并在当前表示不足时通过提出新维度动态扩展状态空间。我们在图 1 中用一个贯穿整个第 4 节反复引用的医学示例来说明完整流程。

##### 贡献。我们做出以下贡献:

- 我们提出了 BALAR,一种任务无关、无需训练的贝叶斯外部循环,使 LLM 代理能够参与结构化多轮交互,在对话期间主动选择信息丰富的问题并更新对潜在任务状态的对信念(第 4 节)。
- 我们引入了一种**动态状态扩展**机制,结合由熵差准则指导的 ASK 和 EXPAND 动作(第 4.5 节)。
- 我们在开放权重 LLM 的三个不同基准上评估了 BALAR。结果显示,BALAR 在 AR-Bench-DC 上比基线高出 14.6%,在 AR-Bench-SP 上高出 38.5%,在 iCraft-MD 上高出 30.5%(第 6 节)。

> **图 1:BALAR 概览。** 给定一个模糊的查询,BALAR 分两个阶段进行结构化多轮推理。**睡眠时初始化**(左):代理通过提出消歧维度 $\{\theta_j\}$、引出先验 $\pi^{(j)}$、生成候选问题 $\mathcal{Q}$ 并估计似然表 $L_{q,u,\theta_j}(y|\theta_j)$ 来构建潜在状态表示。**交互循环**(中):代理维持信念 $\pi_t(\theta)$ 并迭代选择最大化互信息 $I_t(\theta; Y|\mathcal{H}_t)$ 的未提问 $(q,u)$ 对。通过贝叶斯更新纳入用户回复。当剩余预算内无法关闭熵差时,BALAR 触发 Expand,引入新维度和针对性问题。**最终答案**(右):一旦信念集中,MAP 状态 $\hat{\theta}=\arg\max_{\theta}\pi_T(\theta)$ 和历史 $\mathcal{H}_T$ 条件化最终 LLM 调用以生成答案。

## 2 相关工作

##### 主动推理基准。
在**主动推理**中,模型必须通过交互迭代地获取缺失信息,而不是从完全指定的提示中解决问题。AR-Bench 基准 (Zhou 等, 2025) 通过将语言模型置于多轮环境中来评估这种能力,在这些环境中,它们必须提出富有信息量的问题以在产生最终答案之前揭示隐藏的事实。实证结果揭示了被动推理与主动推理性能之间的巨大差距:即使是最先进的模型也仅达到相对较低的准确率,并且模型经常提出模糊或重复的问题,同时在多轮中积累有用信息方面 struggling。这些发现强调了需要明确推理不确定性并以原则性方式指导问题选择的架构。BALAR 通过维持对潜在用户意图的结构化后验,并通过最大化期望信息增益选择澄清性问题来解决这一问题,为跨交互轮次的战略性信息收集提供了原则性机制。

##### 交互式医疗对话。
MEDIQ 框架 (Li 等, 2024) 引入了一个基准,用于评估 LLM 在临床决策任务中主动寻求缺失信息的能力。MEDIQ 通过仅揭示有限的初始患者信息并要求模型在做出决定之前迭代收集缺失证据,将现有数据集转换为交互式任务。实验表明,提示最先进的 LLM 提出问题往往会**降低**相对于直接用部分信息回答的性能,这突出了当前模型在主动信息寻求方面的困难。与 MEDIQ-Expert 等任务特定管道不同,BALAR 提供了一种通用贝叶斯外部循环,可在不依赖专门启发式方法的情况下跨域运行。

##### 基于搜索和不确定性感知的推理。
思维树(ToT)(Yao 等, 2023) 通过将中间推理步骤组织为搜索树来扩展思维链推理,结合 LM 生成与 BFS/DFS 以维护多个部分解决方案,并在必要时回溯。思维不确定性(UoT)(Hu 等, 2024) 同样依赖于交互树的前向模拟,在假设的对话轨迹上传播信息论奖励,以选择具有最高期望不确定性减少的问题。虽然这两种方法都通过结构化探索改进了推理,但它们产生了巨大的计算成本,并且没有维护问题状态的显式概率模型。通过在维持的信念状态上最大化期望熵减少来选择问题的想法在专家系统中有经典先例。Horvitz 等人 (1984) 在用于淋巴结病理诊断的 PATHFINDER 系统中引入了这一策略,其中疾病的概率分布在每次观察后更新。BALAR 维持并更新对结构化潜在意图空间的后验信念,通过闭式互信息选择问题。尽管它也需要多次 LLM 调用,但这些调用被分解为可并行执行的独立计算,避免了基于轨迹方法的顺序开销。

##### 通过学习和提示进行主动对话。
CollabLLM (Wu 等, 2025) 使用强化学习对 LLM 进行微调以优化长期协作结果,通过模拟未来对话并评估轨迹的任务成功率和效率来估计多轮感知奖励。主动思维链(ProCoT)(Deng 等, 2023) 则通过提示诱导主动行为,通过描述对话状态并规划下一步行动的中间推理步骤增强标准提示。STaR-GATE (Andukuri 等, 2024) 采取自我改进的方法:从预训练模型开始,它在增加高质量任务响应可能性的问题上迭代微调,无需人类标记的轨迹即可自举更好的澄清寻求行为。这两种方法都证明了模型可以被要求提出澄清问题,但依赖于额外的训练或启发式提示工程。BALAR 两者都不需要:其贝叶斯公式直接从维持的后验中识别信息丰富的查询,无需微调或提示启发式即可实现原则性的主动对话。

## 3 问题设置

我们考虑一个 LLM 代理与一组 $\mathcal{U}$ 用户交互以解决模糊提示。

###### 定义 3.1(交互实例)。
交互实例是一个元组 $(\mathbf{p}, \mathbf{c}, \mathcal{U})$,其中 $\mathbf{p}$ 是**模糊提示**,$\mathbf{c}$ 是可选的**元上下文**(公开已知的背景),$\mathcal{U}=\{u_1, \ldots, u_N\}$ 是一组用户,每个用户持有对代理不可见的**私有信息** $\mathbf{f}_i$。代理的目标是为 $\mathbf{p}$ 生成正确答案 $y^*$,其中正确性取决于用户的私有信息。代理可以向任何用户 $u \in \mathcal{U}$ 提出问题 $q \in \mathcal{Q}$,接收自然语言回复 $r$。我们将此视为一个**贝叶斯主动信息收集**问题:代理维持对代表用户意图的动态潜在状态 $\theta$ 的信念,选择动作以减少不确定性,并在足够自信时提交答案。

## 4 BALAR:用于主动推理的贝叶斯代理循环

BALAR 分两个阶段运行:**睡眠时初始化** (Li 等, 2025),通过 LLM 调用构建结构化信念和问题库;以及**交互循环**,自适应地选择问题、更新信念并在需要时扩展状态空间。

**运行示例。** 在整个第 4 节中,我们追踪一个具体实例:患者提交模糊提示*“我最近一直头痛。我能做什么?”*同样的主诉可能表明偏头痛、紧张性头痛、丛集性头痛或高血压危象,且不能期望患者使用*血管受累*或*触发模式*等临床术语。BALAR 的目标是从患者友好的对话问题中推断这些潜在的医学概念,而患者永远不会遇到医学术语。

### 4.1 睡眠时初始化

给定 $(\mathbf{p}, \mathbf{c}, \mathcal{U})$,代理在任何用户交互之前执行四个初始化步骤。

#### 步骤 1:消歧维度。
单次 LLM 调用提出 $p$ 个**消歧维度** $(\theta_1, \ldots, \theta_p)$,每个维度具有有限的值集 $\Theta_j=\{v_{j,1}, \ldots, v_{j,n_j}\}$。维度捕捉用户意图中潜在变化的一个轴,使得一旦其值固定,$\mathbf{p}$ 的歧义就会减少。参见图 2 中的运行示例。

> **图 2:** 单次 LLM 调用提出两个维度:$\theta_1=$*血管受累*($\Theta_1=\{\text{vascular}, \text{non-vascular}\}$)和 $\theta_2=$*触发模式*($\Theta_2=\{\text{episodic}, \text{chronic}, \text{acute}\}$),产生大小为 $|\Theta|=6$ 的联合状态空间。

#### 步骤 2:先验引出。
设 $\mathcal{L}=\{\ell_1, \ldots, \ell_r\}$ 为有限标签集(例如,“可能”、“中性”、“不太可能”),$\phi:\mathcal{L}\to\Delta^{r-1}$ 为固定的**标签到概率映射**,其中 $\phi(\ell_i)$ 表示分配给标签 $\ell_i$ 的概率质量,且 $\sum_{i=1}^r\phi(\ell_i)=1$。对于每个维度值 $v_{j,k}$(例如,“vascular”,“non-vascular”),单独的 LLM 调用返回标签 $\ell_{j,k}\in\mathcal{L}$。每维先验则为 $\pi^{(j)}(v_{j,k}) = \phi(\ell_{j,k}) / \sum_{k'=1}^{n_j}\phi(\ell_{j,k'})$。标签集 $\mathcal{L}$ 和映射 $\phi$ 作为超参数处理,并在附录 E 中指定。参见图 3 中的运行示例。

> **图 3:** 并行 LLM 调用为每个维度值分配标签 $\ell\in\mathcal{L}$。此处,LLM 判断*vascular*为*neutral*,*non-vascular*为*likely*,产生 $\pi^{(1)}=[0.38, 0.62]$,而*episodic*为*likely*,*chronic*为*neutral*,*acute*为*unlikely*,给出 $\pi^{(2)}=[0.53, 0.33, 0.13]$。

#### 步骤 3:问题生成。
单次 LLM 调用生成 $|\mathcal{Q}|$ 个候选澄清问题,每个问题具有离散答案集 $\mathcal{Y}_q$。问题旨在关于...

相似文章

AIPO:通过与主动交互学习推理

arXiv cs.CL

本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。

乱码也有效:提示空间扰动拓宽推理探索

Hugging Face Daily Papers

本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。