Agent-BRACE:通过语言化状态不确定性在长视距任务中分离信念与行动

arXiv cs.CL 论文

摘要

本文介绍了 Agent-BRACE,该方法将大型语言模型(LLM)智能体解耦为信念状态模型和策略模型,以处理部分可观测环境中的长视距任务。通过语言化状态不确定性,该方法在保持上下文窗口大小恒定的同时,相比基线方法实现了显著的性能提升。

arXiv:2605.11436v1 公告类型:新论文 摘要:大型语言模型(LLM)越来越多地被部署在部分可观测环境中的长视距任务上,在这些环境中,模型必须在多步过程中推断并跟踪复杂的环境状态,同时采取行动。这导致了两个挑战:部分可观测性要求对未观察到的世界属性保持不确定性,而漫长的交互历史会导致上下文无限制增长,从而稀释与任务相关的信息。解决这两个挑战的一个原则性方案是信念状态:给定过去的观察和行动,信念状态是对环境状态的后验分布,它紧凑地编码历史以进行决策,且不受回合长度影响。然而,在 LLM 智能体中,文本的开放性使得如何表示这种分布变得不明确。因此,我们引入了 Agent-BRACE(通过抽象和置信度估计进行智能体信念状态表示):一种将 LLM 智能体解耦为信念状态模型和策略模型的方法,并通过强化学习进行联合优化。信念状态模型生成信念分布的结构化近似:一组关于环境的原子自然语言主张,每个主张都标注了一个从确定到未知的有序语言化置信度标签。策略模型基于这种紧凑的、结构化的近似信念而非完整历史进行条件判断,学习在明确的不确定性下选择行动。在长视距、部分可观测的具身语言环境中,Agent-BRACE 实现了平均绝对提升 +14.5%(使用 Qwen2.5-3B-Instruct)和 +5.3%(使用 Qwen3-4B-Instruct),优于强大的强化学习基线,同时保持了几乎恒定的上下文窗口,且该窗口大小独立于回合长度。进一步分析表明,随着证据的积累,学习到的信念在回合过程中变得越来越校准(calibrated)。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:13

# Agent-BRACE:通过语言化的状态不确定性源在长视野任务中解耦信念与行动

来源: https://arxiv.org/html/2605.11436  
Joykirat Singh$^1$ Zaid Khan$^1$ Archiki Prasad$^1$ Justin Chih-Yao Chen$^1$ Akshay Nambi$^3$ Hyunji Lee$^1$ Elias Stengel-Eskin$^2$ Mohit Bansal$^1$  
$^1$UNC Chapel Hill $^2$The University of Texas at Austin $^3$Microsoft Research

###### 摘要

大型语言模型(LLMs)越来越多地被部署在部分可观测环境中的长视野任务上,在这些任务中,它们必须在许多步骤中推断并跟踪复杂的环境状态,同时采取行动。这带来了两个挑战:**部分可观测性**要求对未观测到的世界属性保持不确定性,而**长交互历史**导致上下文无限增长,稀释了与任务相关的信息。解决这两个挑战的一个原则性方案是**信念状态(belief state)**:给定过去的观测和行动后,关于环境状态的后验分布,它能够紧凑地编码历史以用于决策,而不受回合长度的影响。然而,在 LLM 智能体中,文本的开放性使得如何表示这种分布变得不明确。因此,我们引入了 **Agent-BRACE**(**Agent** **B**elief state **R**epresentation via **A**bstraction and **C**onfidence **E**stimation,即通过抽象和置信度估计进行智能体信念状态表示),这是一种将 LLM 智能体解耦为**信念状态模型**和**策略模型**并通过强化学习联合优化的方法。信念状态模型生成信念分布的结构化近似:一组关于环境的原子自然语言主张,每个主张都标注了一个从“确定”到“未知”的序数语言化确定性标签。策略模型以这种紧凑的结构化近似信念为条件,而不是以完整历史为条件,从而学习在显式不确定性下选择行动。在部分可观测的具身语言环境中,Agent-BRACE 实现了平均绝对提升 +14.5%(Qwen2.5-3B-Instruct)和 +5.3%(Qwen3-4B-Instruct),优于强大的强化学习基线,同时保持几乎恒定的上下文窗口,独立于回合长度。进一步分析表明,随着证据的积累,习得的信念在回合过程中变得越来越校准。

代码库: https://github.com/joykirat18/Agent-BRACE

## 1 引言

大型语言模型(LLMs)越来越多地被作为智能体部署在长视野、部分可观测的任务中,如软件工程(Yanget al.,2024; Jimenezet al.,2024)、网络导航(Zhouet al.,2023; Denget al.,2023; Heet al.,2024)或研究(Luet al.,2024; Novikovet al.,2025)。这些模型必须在许多步骤中从不完整的观测中推断复杂的世界状态并据此行动——这一设置传统上被建模为部分可观测马尔可夫决策过程(POMDP)(Åström,1965)。在这种框架下,最优策略只需以**信念状态**为条件,即给定过去/当前观测历史和过去行动后,可能环境状态的后验分布。信念状态有两种互补的解释:(1) 该分布代表了智能体所处状态的不确定性,考虑了未观测到的变量;(2) 它充当先前交互历史 $\mathcal{H}_t$ 的充分统计量,允许智能体随时间跟踪观测。

当前的 LLM 智能体与传统 POMDP 方法不同,因为它们通常用文本表示行动和观测。这使得它们能够与没有预定义行动或观测模式的开放、非结构化环境进行交互,但也使得编码显式信念状态变得复杂,并引入了自身的挑战。首先,如果没有历史的充分统计量,基于 LLM 的策略必须以原始交互轨迹为条件,导致表示效率低下(图1;Raw history),上下文长度随回合长度线性增长,从而增加计算成本,并用虚假细节稀释与任务相关的信号(Liuet al.,2024; Chunget al.,2025)(图1;Context Length vs Accuracy)。其次,虽然针对大型或连续状态空间的 POMDP 方法(如粒子滤波器、预测状态表示)已有深入研究(Silver and Veness,2010; Hafneret al.,2020; Gregoret al.,2019),但文本的开放性带来了其自身的挑战:在组合状态空间上如何用文本编码分布尚不明确。确实,以往的工作要么依赖 LLM 的内部表示作为信念代理(Kamelet al.,2025)——这缺乏可解释性并限制了外部验证——要么将信念外化为自由形式的自然语言摘要(Zhouet al.,2025; Yuet al.,2025),后者虽然更具可解释性,但将信念分布 $b_t(s)$ 坍缩为单点估计。

**图1:长视野 POMDP 智能体中的三种上下文管理方法。** Raw history(左)随 $\mathcal{O}(n)$ 无限增长。基于摘要的信念(中)将历史压缩为摘要,但将信念分布坍缩为单个 MLE 点估计 $\hat{s} \sim b_t(s)$,丢弃了不确定性。Agent-BRACE(右)将信念表示为带有 WEP 注释的语句(confirmed, probable, possible 等),近似完整分布 $b_t(s)$,并保持近乎恒定的上下文窗口。Agent-BRACE (Qwen3-4B-Instruct) 在准确性的表现优于两种基线,同时保持恒定的上下文长度(右面板)。

为了应对这些挑战并为 LLM 智能体的信念状态保留不确定性,我们引入了 **Agent-BRACE**:一种训练方法,它将智能体的信念表示为文本,同时通过语言化的概率估计编码不确定性。遵循 POMDP 形式化,Agent-BRACE 将 LLM 智能体解耦为两个模块:**信念状态模型**和**策略模型**,并使用强化学习(RL)对它们进行联合训练。如图2(belief state update)所示,在每个步骤 $t$,信念状态模型以目标 $G$、先前的信念 $b_t$ 和新观测 $o_{t+1}$ 作为输入,并生成更新的近似信念 $b_{t+1}$,表示为一组原子自然语言主张。关键在于,每个主张都标注了一个来自**估计概率词汇表(Words of Estimative Probability, WEP)**尺度的确定性标签(van Tielet al.,2022; Tanget al.,2026; Sileo and Moens,2023);这是一个有序的 Likert 风格词汇表(confirmed $\succ$ almost certain $\succ$ probable $\succ$ possible $\succ$ unlikely $\succ$ doubtful $\succ$ unknown),其基础在于人类在自然语言中表达不确定性的方式。以往的研究表明,LLMs 能够有意义地生成并区分此类语言化的不确定性表达(Linet al.,2022; Tianet al.,2023; Stengel-Eskinet al.,2024)。这产生了一种捕捉不确定性的信念近似,并使用 LLM 可以可靠生成和更新的离散尺度。由于信念状态 $b_t$ 是完整历史的充分近似,策略模型可以以 $(G, b_t, o_t)$ 为条件选择行动,而不是以历史 $\mathcal{H}_t$ 为条件——用紧凑、有界的表示替换了不断增长的轨迹。

在 Agent-BRACE 中,信念状态模型和策略模型通过 PPO(Schulmanet al.,2017)联合训练。策略模型旨在最大化二元环境奖励(成功为 +1,失败为 0),为行动选择提供主要信号。信念状态模型通过组合互补奖励进行优化,每个奖励针对信念质量中的不同失败模式:状态跟踪确保逻辑一致性(Zouet al.,2026; Yuanet al.,2026),状态正确性确保事实基础(Zhaoet al.,2026),多样性防止不确定性坍缩(Lenget al.,2024),折扣成功将信念质量与任务结果对齐,格式确保结构一致性。第4节的消融实验证实了每种奖励的重要性。

我们在各种长视野、部分可观测的具身语言任务上训练和评估 Agent-BRACE。具体而言,Agent-BRACE 在来自 TextWorld(Côtéet al.,2018)环境的 Quest 任务上进行训练,使用 Qwen2.5-3B-Instruct(Qwen Team,2024)和 Qwen3-4B-Instruct(Qwen Team,2025)作为基础模型,并在三个 TextWorld 环境上进行评估:Quest、Treasure 和 Cooking。Agent-BRACE 优于所有基线,包括 ReAct(Yaoet al.,2022)、Direct-Action(RL trained)、ReAct(RL trained)、MEM1(Zhouet al.,2025)和 PABU(Jianget al.,2026),在 Qwen2.5-3B-Instruct 和 Qwen3-4B-Instruct 上分别实现了 72.8% 和 79.3% 的平均准确率——在 Qwen2.5-3B-Instruct 上比最强的 RL 训练基线(Direct-Action (RL))平均绝对提升 +14.5%,在 Qwen3-4B-Instruct 上提升 +5.3%。关键在于,Agent-BRACE 在实现最佳性能的同时保持了近乎恒定的上下文窗口。Agent-BRACE 还展示了强大的泛化能力,尽管仅在 Quest 上训练,但在 Treasure 和 Cooking 任务上仍取得了 consistently 高的性能。此外,我们表明 Agent-BRACE 可以扩展到其他任务,在 ALFWorld(Shridharet al.,2020b)上比最强的 RL 训练基线提升 +2.85%。我们的消融实验证实每个组件都有意义地做出了贡献:联合训练、信念状态奖励和丰富的 WEP 标签集都发挥着关键作用——移除其中任何一个都会导致明显的性能下降。进一步的分析显示,信念在回合过程中变得更好校准,Brier 分数(Glenn and others,1950)从 0.40 降低到 0.28,随着证据的积累,confirmed 主张的比例从 21% 增长到 52%。

**图2:Agent-BRACE 概览。** 智能体被分解为**信念状态模型** $f_\phi$ 和**策略模型** $\pi_\theta$,通过 PPO(Dual Training)联合优化。在每个步骤 $t$,$f_\phi$ 消耗目标 $G$、先前信念 $b_t$ 和新观测 $o_{t+1}$ 以产生带有基于 WEP 的确定性标签的更新信念 $b_{t+1}$(Belief State Update)。策略 $\pi_\theta$ 然后根据 $(G, b_{t+1}, o_{t+1})$ 而不是完整历史 $\mathcal{H}_t$ 选择行动 $a_t$(Action Selection)。信念模型使用复合奖励 $R^{\text{belief}}$ 进行训练,而策略模型使用二元环境奖励 $R^{\text{env}}$ 进行训练。

## 2 方法论:Agent-BRACE

在本节中,我们详细介绍我们的方法(图2)。Agent-BRACE 解决了长视野智能体任务中的两个核心挑战:过去历史的线性增长和部分可观测下信念表示的缺失。为此,Agent-BRACE 通过 PPO 联合训练**信念状态模型**和**策略模型**,其中信念状态模型维护一个结构化的、感知不确定性的信念,作为下游行动选择历史的充分近似。

### 2.1 环境与智能体任务

我们关注被建模为 POMDP 的部分可观测环境,由元组 $\mathcal{M}=(S,T,A,\Omega,O,R,\gamma)$ 定义,其中 $S$ 是潜在环境状态的集合,$T:S\times A\to\Delta(S)$ 是状态转移分布,$A$ 是自然语言行动空间,$\Omega$ 是观测空间,$O:S\times A\to\Delta(\Omega)$ 是观测分布,$R:S\times A\to\mathbb{R}$ 是奖励函数,$\gamma\in(0,1)$ 是折扣因子。由于当前观测 $o_t$ 不是环境状态 $s_t$ 的充分统计量(Kaelblinget al.,1998),最优策略 $\pi$ 必须以完整历史 $\mathcal{H}_t=\{G,o_0,a_0,...,o_t\}$ 或等效的信念状态 $b_t=P(s_t|\mathcal{H}_t)$ 为条件,以最大化期望累积奖励(Åström,1965)。我们考虑智能体任务,其中 LLM 通过与环境 $\epsilon$ 交互来追求目标 $G$,直到目标达成或达到步骤预算。

### 2.2 解耦架构:信念状态模型与策略模型

如图2(Dual Training)所示,我们的方法将智能体参数化为两个联合优化的组件:**信念状态模型**用于状态估计,**策略模型**用于行动选择:

*   **信念状态模型** ($f_\phi$):这是一个可学习的信念更新函数,从原始环境观测中构建和维护近似的信念表示。每个信念状态表示为一组语句,其中每个语句都标注了基于 WEP 的不确定性标签。如图2(Belief State Update)所示,$f_\phi$ 消耗目标 $G$、当前信念状态 $b_t$ 和新观测 $o_{t+1}$ 以产生更新的信念状态 $b_{t+1}=f_\phi(\textit{G},b_t,o_{t+1})$。
*   **策略模型** ($\pi_\theta$):这旨在解决长视野历史挑战,通过以信念状态模型生成的紧凑信念 $b_{t+1}$ 为条件来选择行动,而不是以完整历史 $\mathcal{H}_t$ 为条件。下一个行动变为 $\pi_\theta(\textit{G},b_{t+1},o_{t+1})$。

### 2.3 信念状态表示

如图1(Summary)所示,将信念状态表示为自然语言摘要会将关于环境状态 $s_t$ 的分布坍缩为单个点估计,丢弃了信念状态策略所依赖的**不确定性**。

相似文章

信念记忆:部分可观测性下的智能体记忆

arXiv cs.AI

本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。

BiPACE: 面向LLM智能体的双模拟引导策略优化与动作反事实估计

arXiv cs.CL

BiPACE提出了一种即插即用的优势估计器,用于修复LLM智能体逐步分组强化学习中的状态-动作信用分配错配问题。该方法利用双模拟引导的状态聚类和动作反事实估计,在ALFWorld、WebShop和TextCraft基准上,配合Qwen2.5模型实现了显著的性能提升。