智能体是否需要逐步规划?重新思考以数据为中心的工具调用中的规划视野
摘要
本文认为,在以数据为中心的大语言模型智能体任务中,采用延迟重规划的全视野规划比逐步执行更为高效,在保持准确率的同时大幅减少了Token消耗。
arXiv:2605.08477v1 宣布类型:新论文
摘要:显式规划是基于大语言模型的智能体解决复杂以数据为中心任务的关键能力,这些任务需要在外部数据源上进行精确的工具调用。现有的策略基于规划视野分为两类范式:(1)全视野(FH),即在执行前生成完整计划;(2)单步视野(SH),即将每个动作(工具调用)与增量推理和观察交错进行。虽然逐步执行通常是默认选择,其假设前提是积极的执行监控对于适应性是必要的,但我们针对定义明确的以数据为中心的任务重新审视了这一假设。我们的受控实证研究将规划视野隔离为关键架构特征,并系统分析了拓扑复杂性和工具鲁棒性对这两种范式的影响。我们在知识库问答和多跳问答任务上的实验表明,具有延迟重规划的全视野规划在不同深度、广度和鲁棒性水平下均能达到与单步视野相当的准确率,同时Token使用量减少了2-3倍。这些发现表明,对于定义明确的以数据为中心的任务,积极的逐步监控往往是不必要的,而具有按需重规划功能的全视野规划可以提供更高效的首选方案。
查看缓存全文
缓存时间: 2026/05/12 06:50
# Agent 是否需要逐步规划?重新思考以数据为中心的工具调用中的规划视域 来源:https://arxiv.org/html/2605.08477 , Nikita Bhutan <[email protected]> (https://arxiv.org/html/2605.08477v1/mailto:[email protected]) Megagon Labs, Mountain View, California, USA; Hannah Kim <[email protected]> (https://arxiv.org/html/2605.08477v1/mailto:[email protected]) Megagon Labs, Mountain View, California, USA; Dan Zhang <[email protected]> (https://arxiv.org/html/2605.08477v1/mailto:dan%CB%[email protected]) Megagon Labs, Mountain View, California, USA; Estevam Hruschka <[email protected]> (https://arxiv.org/html/2605.08477v1/mailto:[email protected]) Megagon Labs, Mountain View, California, USA (2026) ###### 摘要\. 显式规划是大语言模型(LLM)驱动的 Agent 解决复杂以数据为中心任务的关键能力,这类任务需要针对外部数据源进行精确的工具调用。现有的策略基于规划视域(planning horizon)分为两种范式:(1)全视域(FH),在执行前生成完整计划;(2)单步视域(SH),将每个动作(工具调用)与增量推理和观察交错进行。尽管基于“主动(eager)执行监控对于适应性是必要的”这一假设,逐步执行已成为常见的默认设置,但我们重新审视了在定义明确的以数据为中心的任务中这一假设的合理性。我们的受控实证研究将规划视域隔离为关键架构特征,并系统分析了拓扑复杂度和工具稳健性对这两种范式的影响。我们在知识库问答(KBQA)和多跳问答(Multi-hop QA)上的实验表明,随着深度、广度和稳健性水平的变化,采用**惰性(lazy)**重规划的全视域规划在准确率上与单步视域相当,同时使用的 Token 数量减少了 2.2–3 倍。这些发现表明,对于定义明确的以数据为中心的任务,主动的逐步监控通常是不必要的,而带有按需重规划的全视域规划可以提供一种更高效的默认方案。 大语言模型 Agent,工具调用,以数据为中心的任务 ††journalyear: 2026 ††copyright: cc ††conference: ACM Conference on AI and Agentic Systems; May 26–29, 2026; San Jose, CA, USA ††booktitle: ACM Conference on AI and Agentic Systems (CAIS ’26), May 26–29, 2026, San Jose, CA, USA ††doi: 10.1145/3786335.3813129 ††isbn: 979-8-4007-2415-2/2026/05 ††submissionid: 52 ††ccs: Information systems Question answering ††ccs: Computing methodologies Natural language generation ## 1. 引言 大型语言模型(LLM)驱动的 Agent 越来越多地被部署来解决**以数据为中心的任务**,在这些任务中,答案必须通过对数据库、知识图谱或文档等外部源的工具调用来构建(图 1 (https://arxiv.org/html/2605.08477#S1.F1))。在这种设置下,成功取决于协调与数据源施加的潜在逻辑(例如,连接或 multi-hop 推理)和词汇约束(例如,数据模式、实体提及)相匹配的工具调用。随着这些任务的复杂性增加,低级工具调用的显式规划已成为现代 Agent 架构的核心组成部分 (Gu et al., 2024 (https://arxiv.org/html/2605.08477#bib.bib12); Xin et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib39); Xiong et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib40))。 > **图 1. 以数据为中心的工具调用中的规划视域。** SH 逐步规划和执行。FH 提前规划并仅在需要时重规划,这可以减少 Token 消耗。 > > **图 1 说明:** 以数据为中心的工具调用中规划视域的三部分概述。顶部面板显示,回答以数据为中心的问题需要协调对多个外部源的工具调用。中间面板对比了单步视域规划(在每次工具调用后交替进行规划和执行)与全视域规划(预先生成多步工具使用计划,并仅在需要时重规划)。底部面板总结了实验结果,显示两种方法在不同数据集上的准确率相似,而单步视域使用的 Token 数量要多得多。 **图 1 (a)** 在以数据为中心的任务中,LLM Agent 必须协调工具调用,以从外部数据源综合答案。这种复杂的工具调用需要显式规划(如下所示)。 **图 1 (b)** 单步视域(SH)在每一步交替进行规划和执行(*主动*监控)。全视域(FH)预先规划,并(可选地)仅按需重规划(*惰性*监控)。 **图 1 (c)** 当使用 GPT-4.1-mini 作为基础 LLM 时,SH 和 FH 在不同数据集上达到相当的准确率(左),但 SH 消耗多得多的输入+输出 Token(右)。详见 §4 (https://arxiv.org/html/2605.08477#S4)。 现有的规划技术可以根据**规划视域**——即在工具执行之前计划的步数(图 1 (https://arxiv.org/html/2605.08477#S1.F1))——归类为两大范式。**单步视域(SH)**规划交错进行推理和执行,基于先前的观察每次调用一个工具。**全视域(FH)**规划则相反,在执行前预先生成完整计划。最近的前沿模型和系统越来越多地支持预先的高层次任务分解,更高级的 FH 规划技术也得到了开发 (Xu et al., 2023 (https://arxiv.org/html/2605.08477#bib.bib41); Li et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib19))。然而,紧密的“思考-行动-观察”循环 (Yao et al., 2023 (https://arxiv.org/html/2605.08477#bib.bib45)) 仍然是低级工具执行的常见默认值。^1^ ^1^ 在本文中,我们关注这一**低级执行层**,而不是更高层次的分解。 这种**主动**监控通常被认为对于稳健地处理外部工具和数据来源的不透明性和潜在噪声至关重要 (Kim et al., 2024b (https://arxiv.org/html/2605.08477#bib.bib17); Gonzalez-Pumariega et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib9); Zhang et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib47))。Liu 等人 (2025 (https://arxiv.org/html/2605.08477#bib.bib22)) 的最新工作开始质疑交错规划是否普遍最优。他们在没有工具交互的一般推理任务上比较了不同的规划策略,发现 SH 规划并非始终 superior。然而,他们的研究留下了一个关键问题:这一结论是否适用于以数据为中心的设置,其中成功取决于结构化的工具调用,而不仅仅是纯粹的内在推理? 我们进行了一项受控实证研究,通过将焦点从抽象推理转移到**以数据为中心的工具调用任务**来填补这一空白,在这些任务中,规划决策直接影响执行成功、计算成本和稳健性。我们进一步超越了数据集层面的比较,通过在实例层面分析规划行为,实现了对任务难度的更精确刻画。具体而言,我们引入了一个实例层面的框架,解耦了两个正交维度:**拓扑复杂度**(执行图的深度和广度)和**工具稳健性**(对不精确输入的容忍度)。这两个维度共同捕捉了工具介导的以数据为中心任务的两个基本挑战:满足中间步骤之间的逻辑依赖关系,以及使生成的参数与外部模式或词汇约束保持一致。 我们假设,对于定义明确的以数据为中心的任务,配备**惰性**监控(执行完整计划并仅在失败时重规划)的 FH 规划器可以在没有持续反馈整合的巨大开销的情况下,匹配 SH 规划器的性能。我们关注知识库问答(KBQA)和多跳问答(HotpotQA),因为它们代表了以数据为中心的 Agent 的两个核心挑战。KBQA 作为测试逻辑一致性的受控环境,要求 Agent 协调反映数据库查询的原子工具操作。HotpotQA 代表了非结构化设置中的挑战,其中 Agent 必须导航检索噪声并协调基于推理的子 Agent。这种设置使我们能够分析在刚性、结构化的模式以及模糊、非结构化的数据来源之间的规划行为。 我们的结果显示,在定义明确的以数据为中心的任务中,没有统计学证据表明 SH 规划在不同结构或稳健性配置下比 FH 规划具有性能优势。鉴于这种性能平权,FH 规划的 2.2–3 倍效率优势(图 1 (https://arxiv.org/html/2605.08477#S1.F1))使其成为一个比以前认为的更强的选项。我们的发现还表明,先前工作中 FH 规划所表现出的脆弱性可能源于缺乏适当的恢复机制,而不是全视域规划本身的固有局限性。虽然 SH 规划在探索性或高度动态的工具调用任务中可能仍然具有优势,但我们的结果通过证明主动监控并非普遍必要,从而修正了关于 SH 的普遍假设。在结构和稳定的环境中,较不频繁的监控可以显著提高效率,而不牺牲准确性。 我们的贡献如下: * 我们将规划视域隔离为 LLM Agent 中的核心架构变量(§2 (https://arxiv.org/html/2605.08477#S2)),并在以数据为中心的任务中提供了其影响的受控比较。 * 我们引入了一个实例层面的框架,通过执行图拓扑和工具稳健性来刻画难度(§3 (https://arxiv.org/html/2605.08477#S3))。特别是,我们确定了深度和广度作为执行图复杂性的被忽视的轴线,除了序列长度外,它们也影响规划性能。 * 我们表明,在定义明确的以数据为中心的任务上,带有惰性重规划的 FH 规划在准确率上与 SH 规划相当,同时使用的 Token 更少(§4 (https://arxiv.org/html/2605.08477#S4))。这一结果为未来关于自适应和混合规划器的工作奠定了基础。 ## 2. 规划视域:关键架构特征 Agent 框架的版图非常广泛 (Huang et al., 2024 (https://arxiv.org/html/2605.08477#bib.bib13); Li, 2025 (https://arxiv.org/html/2605.08477#bib.bib20); Wei et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib36))。然而,大多数方法可以通过一个潜在的设计选择来理解:**规划视域**,定义为 Agent 在执行前规划的步数。规划视域决定了 Agent 在与工具交互之前进行了多少模拟,因此控制着来自环境的反馈何时被纳入规划。 我们将 Agent 概念化为与环境 $E$ 交互的策略 $\pi$。设 $A$ 表示可用工具(动作)的集合,$O$ 表示可能观察(工具输出)的空间。给定用户查询 $q$,Agent 生成一个由动作 $a_i \in A$ ($i=1,\dots,T$) 组成的计划 $P=(a_1,\dots,a_T)$,其中 $T$ 表示计划长度,$a_T$ 是最终计划的动作。这里,计划特指执行层面的工具调用序列。执行动作 $a_i$ 会产生观察 $o_i \in O$,导致通向 $q$ 答案的轨迹。在这种表述中,规划策略仅在执行期间调用策略 $\pi$ 的时间上有所不同。 在本节中,我们将规划视域视为主要架构特征,并讨论它如何塑造适应性与成本之间的权衡。特别是,我们关注 Agent 何时以及如何响应工具反馈进行重规划。 ### 2.1. 单步视域(SH) 单步视域(SH)范式紧密地交错进行规划和执行。Agent 在执行动作前仅模拟一步。在此范式中,步骤 $t$ 的动作生成取决于用户查询 $q$ 以及先前动作和观察的历史: $$ a_t \sim \pi(q, a_1, o_1, \dots, a_{t-1}, o_{t-1}) \quad (1) $$ 这种设计意味着**主动**反馈监控,因为 Agent **总是**在决定下一步之前处理到当前步骤的观察。SH 在现代 Agent 应用中广泛使用,有一些变体可以一次性规划并行的、独立的步骤。其流行源于紧密的规划-行动反馈循环,这使其能够稳健地适应外部工具和环境中的不确定性和噪声。这种适应性在需要信息收集才能进行后续规划的探索性任务中特别有益 (Kim et al., 2024b (https://arxiv.org/html/2605.08477#bib.bib17); Gonzalez-Pumariega et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib9); Zhang et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib47))。 ### 2.2. 全视域(FH) 全视域(FH)范式预先生成完整的执行图。Agent 在触发任何工具执行之前,对解决任务所需的轨迹进行完整模拟。在此范式中,Agent 仅根据查询生成初始计划作为完整的动作序列 $P=(a_1,\dots,a_T)$: $$ P \sim \pi(q) \quad (2) $$ 然后通过环境 $E$ 执行,而不在每一步都调用策略 $\pi$。与 SH 不同,FH 允许**惰性**反馈整合,其中观察仅在触发监控时整合。例如,步骤 $k$ 的执行失败可以触发监控,提示 Agent 基于观察到的轨迹进行重规划: $$ P' \sim \pi(q, a_1, o_1, \dots, a_k, o_k) \quad (3) $$ ### 2.3. 规划视域的影响 规划视域在适应性和计算成本之间产生了权衡。SH **主动**监控每次工具调用,这可以对不确定性和噪声产生稳健的适应,但由于重复推理而产生大量开销。相比之下,FH 在一次通行中生成多步计划,因此更高效,但仅**惰性**整合反馈。 比较 FH 的惰性反馈整合(公式 (3) (https://arxiv.org/html/2605.08477#S2.E3))与 SH 的单步生成(公式 (1) (https://arxiv.org/html/2605.08477#S2.E1)),我们看到它们都依赖于该步骤可用的相同动作-观察历史。因此,实际区别不在于使用**什么**信息,而在于**何时**使用:每一步(SH)还是仅在触发时(FH)。这一见解提出了一个可检验的假设:通过适当的监控触发器,FH 应该能够实现与 SH 相当的性能,同时需要更少的策略调用。 从这个角度来看,FH 通常假设的脆弱性可能并非源于其规划视域本身,而是源于缺乏有效的错误恢复机制。值得注意的是,许多现有研究在不进行重规划的情况下实现 FH (Gonzalez-Pumariega et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib9); Zhang et al., 2025 (https://arxiv.org/html/2605.08477#bib.bib47)),这混淆了该范式的评价。因此,我们评估配备惰性监控的 FH。为了获得可推广的见解,我们采用实践中常用的简单触发器:执行失败时重规划。我们还抽象掉了实现特定的细节,如工具调用格式,并将规划视域隔离为我们分析中的主要变量。 ## 3. 任务特征化 为了评估规划视域如何塑造 Agent 行为,我们需要一种原则性的方法来刻画任务难度。数据集层面的比较 (Liu
相似文章
基于大语言模型智能体进行分层广义规划时的策略分解学习与复用
本文介绍了 HCL-GP,这是一种动态策略学习框架,将广义规划与分层任务分解相结合,使基于大语言模型(LLM)的智能体能够学习和复用可执行的策略组件,从而在 AppWorld 基准测试上显著提升性能。
最佳智能体模型是懂得何时停止的那一个
文章认为,高效的AI智能体需要克制和明确的“停止条件”,而非无限的自主性,并指出Ling-2.6-1T是一个适合保守规划角色的模型。
GenericAgent:一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体(V1.0)
本文介绍了 GenericAgent,这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程(SOP)以及高效压缩技术,解决了长周期任务的局限性,在与领先智能体的对比中,以更少的 Token 消耗实现了更优的性能表现。
使用 MCP 进行代码执行:构建更高效的智能体
本文来自 Anthropic,探讨了如何将代码执行与 Model Context Protocol (MCP) 相结合,以提升 AI 智能体的效率。文章分析了工具定义和中间结果导致的 token 过载等挑战,并提出代码执行作为降低延迟和成本的解决方案。
@djfarrelly: https://x.com/djfarrelly/status/2052779234234380479
本文主张,AI Agent 的开发应基于稳定的执行原语,而非会随新兴编排模式频繁更迭的僵化框架。文章强调,采用持久化步骤、持久状态、并行协调、事件驱动流程以及可观测性设计,可有效避免因最佳实践不断演进而付出的高昂重写代价。