上下文收集决策过程：用于智能体搜索的POMDP框架

arXiv cs.AI 2026/05/11 04:00 论文

llm-agents pomdp agentic-search context-management reinforcement-learning multi-hop-reasoning

摘要

本文引入了上下文收集决策过程（CGDP），这是一个用于建模LLM智能体搜索行为的POMDP框架，提出了能够提升多跳推理能力并降低Token消耗且不影响性能的干预措施。

arXiv:2605.07042v1 宣布类型：新论文摘要：大型语言模型（LLM）智能体被部署在复杂环境中——如庞大的代码库、企业数据库和对话历史中，这些环境中的相关状态远远超出了它们的上下文窗口。为了在这些空间中导航，智能体必须迭代地探索环境以找到相关信息。然而，如果没有显式的基础设施，智能体的工作记忆可能会退化为搜索状态的有损表示，导致重复工作（例如重复循环）和过早停止。在这项工作中，我们将这一挑战形式化为上下文收集决策过程（CGDP），这是一种专门的偏可观测马尔可夫决策过程，其中智能体的目标是自适应地精炼其信念状态，以隔离任务所需的信息。我们在此CGDP中将LLM的行为建模为近似Thompson采样，并引入了一种基于谓词的方法，将LLM的隐式搜索分解为显式且模块化的操作。然后，我们推导出两种即插即用式的干预措施：一种持久且基于谓词的信念状态，它限制上下文同时保留多跳推理；另一种程序化耗尽门控机制，它可以在不造成过早停止的情况下终止无益的搜索。在四种方法和三个问答领域中，我们实证验证了用我们的CGDP驱动的信念状态替代LLM的隐式状态可以将多跳推理能力提升高达$11.4\%$；而模块化的程序化耗尽检测最多节省了$39\%$的Token且未造成任何智能体性能的下降。最终，我们认为将LLM智能体循环视为CGDP可以指导对智能体搜索工具的模块化、非干扰性改进的设计。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:11

# 用于代理搜索的 POMDP 框架
来源: https://arxiv.org/html/2605.07042

## 上下文收集决策过程：一种用于代理搜索的 POMDP 框架
Chinmaya Kausik
密歇根大学
ckausing@umich\.edu & Adith Swaminathan
Netflix
aswaminathan@netflix\.com & Nathan Kallus
Netflix
nkallus@netflix\.com

###### 摘要
大型语言模型（LLM）代理被部署在复杂的环境中——例如庞大的代码库、企业数据库和对话历史——其中相关状态远远超过了它们的上下文窗口。为了在这些空间中导航，代理必须迭代地探索环境以找到相关信息。然而，如果没有明确的基础设施，代理的工作记忆可能会退化为搜索状态的有损表示，导致重复劳动（例如，重复循环）和过早停止。在这项工作中，我们将这一挑战形式化为上下文收集决策过程（CGDP），这是一种专门的 Partially Observable Markov Decision Process（POMDP），代理的目标是自适应地精炼其信念状态，以隔离任务所需的信息。我们将 LLM 的行为建模为 CGDP 中的近似 Thompson Sampling，并引入了一种基于谓词的方法，将 LLM 的隐式搜索分解为显式和模块化操作。随后，我们为迭代式 LLM 代理推导出了两种即插即用的干预措施：一种持久的、基于谓词的信念状态，它在限制上下文的同时保留多跳推理能力；以及一种程序化的耗尽门，用于在不过早停止的情况下终止无成效的搜索。在四种方法和三个问答领域中的实证验证表明，用我们基于 CGDP 的信念状态替换 LLM 的隐式状态，可以将多跳推理性能提高多达 11.4%；而模块化程序化耗尽检测可以在不影响代理性能的情况下节省多达 39% 的 token。最终，我们认为，将 LLM 代理循环视为 CGDP 可以指导设计模块化、非干扰性的代理搜索工具改进。

## 1 引言

大型语言模型（LLM）代理越来越多地部署在复杂的现实世界环境中，其中相关状态远远超过了它们可靠的工作上下文。深度研究代理搜索网络[44 (https://arxiv.org/html/2605.07042#bib.bib1)]；编程助手搜索代码库并运行 shell 工具[41 (https://arxiv.org/html/2605.07042#bib.bib2)]；支持代理从企业知识库中检索信息[16 (https://arxiv.org/html/2605.07042#bib.bib3)]；所有这些系统都面临同样的根本性挑战：代理无法将整个环境加载到其提示中。相反，它必须与观察函数（例如 Python REPL、搜索引擎 API 或向量数据库）进行迭代交互，以收集必要的信息。

尽管在扩展 LLM 上下文窗口方面进行了大量研究[17 (https://arxiv.org/html/2605.07042#bib.bib4),38 (https://arxiv.org/html/2605.07042#bib.bib5)]，但长上下文模型仍然表现出位置敏感性[21 (https://arxiv.org/html/2605.07042#bib.bib6)]，在遇到难负样本时性能下降[11 (https://arxiv.org/html/2605.07042#bib.bib7)]，在多轮交互中不可靠[14 (https://arxiv.org/html/2605.07042#bib.bib8)]，并且在长视野搜索中过早停止[43 (https://arxiv.org/html/2605.07042#bib.bib9)]。因此，构建代理工具——允许 LLM 主动管理和搜索外部上下文的基础设施——已经得到了广泛研究[33 (https://arxiv.org/html/2605.07042#bib.bib10),37 (https://arxiv.org/html/2605.07042#bib.bib11),42 (https://arxiv.org/html/2605.07042#bib.bib12),26 (https://arxiv.org/html/2605.07042#bib.bib18),29 (https://arxiv.org/html/2605.07042#bib.bib30)]。

代理工具通常将原始观察结果直接附加到 LLM 提示中[33 (https://arxiv.org/html/2605.07042#bib.bib10),37 (https://arxiv.org/html/2605.07042#bib.bib11),42 (https://arxiv.org/html/2605.07042#bib.bib12)]；在长视野下，这种隐式状态跟踪会导致严重故障：代理会忘记其原始目标，陷入重复查询循环，幻觉出参数化知识而不是语料库证据，并且无法可靠地识别搜索何时完全耗尽。例如，解决软件错误的编程代理可能会反复检索同一个文件，在相同的假设之间摇摆，而没有意识到其搜索已经停滞。

为了解决这些故障，我们将交互式信息寻求代理循环形式化为上下文收集决策过程（CGDP）。CGDP 是一种专门的 Partially Observable Markov Decision Process（POMDP）[13 (https://arxiv.org/html/2605.07042#bib.bib17)]，其中隐藏状态是庞大的外部语料库，动作是工具调用，观察结果是检索到的信息，目标是自适应地精炼代理的信念状态，以便从隐藏状态中识别与任务相关的信息。如表 1 (https://arxiv.org/html/2605.07042#S1.T1) 所示，这个数学框架抽象了许多现代代理的细节。

表 1：在各种代理应用中，底层挑战仍然是通过受限的观察函数导航庞大的隐藏状态以满足用户查询，我们将其建模为上下文收集决策过程（CGDP）。

通过 CGDP 的视角，我们将 LLM 的行为建模为近似 Thompson Sampling[35 (https://arxiv.org/html/2605.07042#bib.bib16),30 (https://arxiv.org/html/2605.07042#bib.bib34),25 (https://arxiv.org/html/2605.07042#bib.bib15)]，其中模型隐式采样假设并基于该假设采取信息收集动作。为了使这一过程显式化，我们引入了基于谓词的自适应识别（Predicate-Based Adaptive Identification, PBAI），这是一种抽象算法，将代理搜索分解为模块化操作：评估停止、选择动作、观察和更新信念。通过将最先进的代理工具映射到 PBAI，我们可以精确地指出其隐式推理在哪些方面缺乏可靠长视野搜索所需的基础设施。

基于我们的框架，我们为代理搜索工具推导出了两种模块化干预措施：

1.  **基于谓词的信念状态**：一种持久的、显式管理的数据结构，强制代理迭代地提取发现并跟踪开放问题，在限制上下文足迹的同时保留多跳推理性能。
2.  **程序化耗尽门**：一种停止机制，用于终止无成效的搜索。该机制不依赖 LLM 的自我评估（其校准可能不佳[4 (https://arxiv.org/html/2605.07042#bib.bib19),9 (https://arxiv.org/html/2605.07042#bib.bib29)]），而是使用动作相似性和观察新颖性等项目信号来防止重复循环和过早停止。

我们在四种代理搜索工具和三个领域（多会话对话问答、多跳维基百科问答和代码库问答）中实证验证了这些干预措施。我们发现，用基于谓词的信念状态替换 LLM 的隐式搜索状态永远不会降低代理性能，并且可以将多跳推理提高多达 11.4%。此外，程序化耗尽门在状态工具上安全地减少了多达 39% 的 token 消耗，而没有牺牲任务准确性。最终，我们证明，将 LLM 代理搜索形式化为 CGDP 为设计可靠的模块化工具改进提供了蓝图。

## 2 相关工作

我们的贡献位于检索增强生成、长视野代理搜索和 LLM 元认知的交叉点。虽然之前的工作在经验上改进了代理循环的特定组件，但我们提供了一个统一的框架来理解这些组件如何相互作用。

#### 迭代 RAG 和代理工具
多轮方法通常通过不断增长的上下文窗口隐式累积状态。IRCoT[37 (https://arxiv.org/html/2605.07042#bib.bib11)]将检索与思维链推理交织在一起，Iter-RetGen[33 (https://arxiv.org/html/2605.07042#bib.bib10)]使用之前的生成来指导后续的检索查询，ReAct[42 (https://arxiv.org/html/2605.07042#bib.bib12)]通过结构化的“思考-行动-观察”轨迹跟踪历史。虽然这些方法执行代理搜索，但它们的隐式状态跟踪在长序列中经常退化。最近的方法引入了明确的每次检索干预：Self-RAG[2 (https://arxiv.org/html/2605.07042#bib.bib20)]添加了检索时的自我反思，Corrective RAG[40 (https://arxiv.org/html/2605.07042#bib.bib21)]根据相关性评估纠正检索查询，FAIR-RAG[1 (https://arxiv.org/html/2605.07042#bib.bib22)]通过证据清单引入差距分析。类似地，MemGPT[26 (https://arxiv.org/html/2605.07042#bib.bib18)]为 LLM 提供了显式的内存管理工具。虽然像 StateAct[29 (https://arxiv.org/html/2605.07042#bib.bib30)]或 FAIR-RAG[1 (https://arxiv.org/html/2605.07042#bib.bib22)]这样的方法依赖于 LLM 管理的摘要或清单，但我们的框架表明，*编排器强制*、严格策划的信念状态优于 LLM 的自我管理工具使用或内存编辑。

#### 长视野搜索和语料库组织
为了解决无界上下文问题，离线内存组织方法如 A-MEM[39 (https://arxiv.org/html/2605.07042#bib.bib23)]、HippoRAG[8 (https://arxiv.org/html/2605.07042#bib.bib24)]、HopRAG[20 (https://arxiv.org/html/2605.07042#bib.bib26)]和 GraphRAG[5 (https://arxiv.org/html/2605.07042#bib.bib25)]将底层语料库结构化为图以便于检索，而在我们的工作中，我们在在线组织代理对从语料库中发现内容的理解。对于长视野在线搜索，SLIM[43 (https://arxiv.org/html/2605.07042#bib.bib9)]将搜索与浏览分开，并定期总结轨迹以管理上下文，而 AggAgent[15 (https://arxiv.org/html/2605.07042#bib.bib13)]生成并行检索轨迹并按需合成它们。这些系统支持我们的核心前提：当外部上下文被主动管理而不是被动附加时，可靠性会提高。

#### 停止标准和元认知
迭代搜索中的一个关键挑战是知道何时停止。为了检测是否启动检索，有像 FLARE[10 (https://arxiv.org/html/2605.07042#bib.bib27)]（使用 token 级置信度分数）和 DRAGIN[34 (https://arxiv.org/html/2605.07042#bib.bib28)]（使用基于注意力的分数）这样的模型。相比之下，我们的工作解决的是检索后的停滞问题。依赖 LLM 自我评估停止标准已被证明是脆弱的；最近的证据表明，LLM 在没有外部反馈的情况下无法可靠地自我纠正推理[9 (https://arxiv.org/html/2605.07042#bib.bib29)]，并且它们的口头置信度校准不佳[4 (https://arxiv.org/html/2605.07042#bib.bib19)]。受此启发，我们的程序化耗尽门用启发式停滞信号替换 LLM 自我评估，并在不降低搜索准确性的情况下提高 token 效率。

为了理解为什么迭代式 LLM 代理通常在长视野搜索中失败，我们试图将信息寻求问题的表述与用于解决它们的特定提示工程分开。在本节中，我们将代理搜索形式化为特定的决策过程，定义成功的概念，并诊断为什么 LLM 成为该过程的次优代理。

### 3.1 上下文收集决策过程

上下文收集决策过程（CGDP）可以被视为一种带有终端奖励和每次动作成本的 POMDP[13 (https://arxiv.org/html/2605.07042#bib.bib17)]，与序贯识别密切相关[31 (https://arxiv.org/html/2605.07042#bib.bib31),7 (https://arxiv.org/html/2605.07042#bib.bib33)]；它由任务 $q$（例如，用户查询）、巨大的隐藏世界状态 $c \in \mathcal{C}$（例如，代码库）、动作空间 $\mathcal{A}$（例如，LLM 可调用的工具）、将代理的动作映射到可观察文本块的观察函数 $F: \mathcal{A} \times \mathcal{C} \to \mathcal{O}$ 以及每次动作成本 $\lambda$ 定义。在每时刻 $t$，代理选择一个动作 $a_t \in \mathcal{A}$，它可以是产生成本 $\text{Cost}(a_t)$ 并创建观察 $o_t = F(a_t, c)$ 的环境查询（例如，BASH 命令），或者是返回最终答案 $a_{\text{final}}$ 的终止动作。环境通过二元成功函数 $\text{Success}(q, c, a_{\text{final}}) \in \{0, 1\}$ 评估代理的最终答案。令 $a^*(q, c)$ 表示最优答案，即 $\text{Success}(q, c, a^*(q, c)) = 1$。仅提示查询 $q$，LLM 缺乏产生 $a^*(q, c)$ 的上下文，并且会弃权或产生幻觉。由于无法一次性处理整个隐藏状态 $c$，它必须与 $F$ 进行迭代交互以收集足够的信息子集。最优的 CGDP 代理在任务分布 $\mathcal{D}$ 上最大化预期成功，同时最小化探索成本（例如，LLM token 预算和/或延迟）：

$$
\operatorname{argmax}_{\mathrm{Policy}} \mathbb{E}_{(q,c) \sim \mathcal{D}} \left[ \mathrm{Success}(q, c, \mathrm{Policy}(q, c)) - \lambda \sum_{t=1}^{T} \mathrm{Cost}(a_t) \right]. \quad (1)
$$

至关重要的是，环境的真实状态包括 $c$，但每一步的观察 $o_t$ 只是代理通过 $F(a_t, c)$ 显式选择观察到的 $c$ 的片段。因此，成功的 CGDP 代理必须维护内部信念状态 $b_t$[13 (https://arxiv.org/html/2605.07042#bib.bib17)]，以综合其历史观察，跟踪其向 $a^*(q, c)$ 的进展，并指导下一个动作 $a_t$ 的选择。

### 3.2 LLM 在 CGDP 中的行为

代理工具（例如 ReAct[42 (https://arxiv.org/html/2605.07042#bib.bib12)]，IRCoT[37 (https://arxiv.org/html/2605.07042#bib.bib11)]）通过将 LLM 部署为策略来解决 CGDP，并通过连接观察历史隐式维护信念状态。在步骤 $t$，状态为

$$
s_{t+1} = \text{Truncate}(s_t \oplus \{a_t, o_t\}), \quad (2)
$$

其中截断程序化地丢弃较旧的步骤以遵守 LLM 上下文窗口的限制。策略仅通过自回归生成实现 $a_{t+1} = \text{LLM}(s_{t+1})$。

将 LLM 代理视为 CGDP 策略表明，它们可能会因为缺乏已知对导航 POMDP 有益的 fundamental 机制而出现故障模式：

1.  **有损表示（目标遗忘）**：普通的 LLM 代理依赖于不断增长的历史 $s_t$ 作为其信念状态。随着 $t$ 增加，LLM 必须在每一步隐式推断“目标是什么？”以及“到目前为止解决了什么？”。实证研究表明，LLM 可能会忽略长上下文中间的证据[21 (https://arxiv.org/html/2605.07042#bib.bib6)]，这可能导致目标漂移。
2.  **过早停止**：POMDP 中的最优代理在下一次动作的预期信息增益低于其成本时停止探索[31 (https://arxiv.org/html/2605.07042#bib.bib31),7 (https://arxiv.org/html/2605.07042#bib.bib33)]。然而，我们推测 LLM 是在指令跟随数据集上训练的，其中最受奖励的行为是在出现合理答案时立即

上下文收集决策过程：用于智能体搜索的POMDP框架

相似文章

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

MedExAgent：在嘈杂的临床环境中训练大语言模型代理进行询问、检查与诊断

MAP：一种用于长周期交互式智能体推理的“先绘图后行动”范式

自主代理搜索模型（5分钟阅读）

从历史到状态：面向 LLM 智能体的恒定上下文技能学习

提交意见反馈