HIPIF: 面向长期LLM智能体学习的分层规划与信息折叠

arXiv cs.AI 论文

摘要

介绍了HIPIF,一种通过分层规划与信息折叠来训练LLM智能体处理长期任务的方法,旨在减少长上下文干扰,在三个基准测试上取得了优异结果。

arXiv:2606.10507v1 公告类型:新 摘要:尽管大语言模型(LLMs)在广泛的任务中展现出作为自主智能体的强大能力,但其性能在多轮长期智能体任务中常常下降。现有方法通过细粒度信用分配以缓解长期稀疏奖励,以及通过分层强化学习来分解任务并减少长期依赖,取得了进展。然而,这些方法仍然没有直接解决长上下文干扰问题——持续增长的历史记录削弱了智能体跟踪全局任务状态的能力,并损害了后续推理与决策。受人类通过子目标分解和已完成进度总结来处理复杂任务的方式启发,我们提出了面向长期LLM智能体学习的分层规划与信息折叠(HIPIF)。HIPIF端到端地训练智能体,使其围绕显式子目标组织长期执行,同时折叠已完成的子目标历史以减少长上下文干扰。此外,为了稳定基于子目标的规划与执行,HIPIF结合了分层反思和面向子目标的进程奖励来指导子目标生成、转换与执行,而无需依赖昂贵的辅助模型或特定任务的专家轨迹。在三个公开可用的智能体基准测试上进行的大量实验证明了我们方法的有效性。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:15

# HIPIF:面向长时域LLM智能体学习的分层规划与信息折叠 来源:https://arxiv.org/html/2606.10507  
11footnotetext:同等贡献。22footnotetext:通讯作者。  
Juncheng Diao¹²*, Zhicong Lu¹²*†, Peiguang Li¹, Yongwei Zhou¹, Changyuan Tian², Qingbin Li², Rongxiang Weng¹, Jingang Wang¹, Xunliang Cai¹  
¹美团 ²中国科学院大学  
{diaojuncheng24, luzhicong21}@mails.ucas.ac.cn  

###### 摘要  
尽管大型语言模型(LLMs)在各类任务中作为自主智能体展现出强大能力,但其在多轮长时域任务中的表现往往下降。现有方法通过细粒度信用分配缓解长时域稀疏奖励问题,以及通过分层强化学习分解任务、减少长期依赖,取得了一定进展。然而,这些方法仍未直接解决长上下文干扰问题——持续增长的历史记录会削弱智能体追踪全局任务状态的能力,损害后续推理与决策。受人类通过子目标分解和完成进度总结来处理复杂任务的启发,我们提出面向长时域LLM智能体学习的分层规划与信息折叠(HIPIF)。HIPIF以端到端方式训练智能体,围绕显式子目标组织长时域执行,同时折叠已完成子目标的执行历史,以减少长上下文干扰。此外,为稳定基于子目标的规划与执行,HIPIF结合分层反思和面向子目标的过程奖励,指导子目标的生成、转换与执行,且无需依赖昂贵的辅助模型或任务特定的专家轨迹。在三个公开可用的智能体基准上的大量实验证明了我们方法的有效性。

## 1 引言  
大型语言模型(LLMs)凭借其不断增强的推理与规划能力,已成为长时域智能体决策任务的有前景基础,该类任务要求智能体通过多轮与环境的交互完成高层目标[30(https://arxiv.org/html/2606.10507#bib.bib1)、40(https://arxiv.org/html/2606.10507#bib.bib2)、24(https://arxiv.org/html/2606.10507#bib.bib19)、33(https://arxiv.org/html/2606.10507#bib.bib22)、17(https://arxiv.org/html/2606.10507#bib.bib55)]。然而,尽管在单步任务中取得成功,现有LLM智能体在复杂的长时域交互中仍远未令人满意。正如STEP-HRL[44(https://arxiv.org/html/2606.10507#bib.bib32)]所指出的,现有LLM智能体[2(https://arxiv.org/html/2606.10507#bib.bib6)、15(https://arxiv.org/html/2606.10507#bib.bib12)]的一个关键局限是:每次决策都依赖于不断增长的观察-动作历史。在长时域交互中,持续增大的上下文累积了冗余信息,削弱了智能体追踪全局任务状态的能力,损害了后续的推理与决策[46(https://arxiv.org/html/2606.10507#bib.bib31)]。  

现有方法已对此挑战进行了初步尝试。基于提示的方法[40(https://arxiv.org/html/2606.10507#bib.bib2)、39(https://arxiv.org/html/2606.10507#bib.bib26)、22(https://arxiv.org/html/2606.10507#bib.bib18)、11(https://arxiv.org/html/2606.10507#bib.bib10)、6(https://arxiv.org/html/2606.10507#bib.bib40)]和行为克隆方法[3(https://arxiv.org/html/2606.10507#bib.bib7)、9(https://arxiv.org/html/2606.10507#bib.bib3)]主要依靠提示工程或专家轨迹来激发LLM智能体的推理、规划、反思或上下文折叠能力。然而,它们未通过环境反馈进行优化,限制了其在多样化环境和长时域交互中的适应性。相比之下,强化学习(RL)方法利用环境反馈提供更细粒度和更可靠的奖励信号,从优化角度改进长时域智能体。例如,信用分配方法[31(https://arxiv.org/html/2606.10507#bib.bib39)、32(https://arxiv.org/html/2606.10507#bib.bib63)、5(https://arxiv.org/html/2606.10507#bib.bib44)、4(https://arxiv.org/html/2606.10507#bib.bib8)、13(https://arxiv.org/html/2606.10507#bib.bib33)]通过更精确的步骤级监督缓解长时域任务中的稀疏奖励挑战,而分层RL方法[7(https://arxiv.org/html/2606.10507#bib.bib9)、43(https://arxiv.org/html/2606.10507#bib.bib30)、44(https://arxiv.org/html/2606.10507#bib.bib32)、16(https://arxiv.org/html/2606.10507#bib.bib37)]通过任务分解减少长期依赖。然而,许多现有RL方法依赖额外模型进行任务分解或过程奖励标注,增加了流水线复杂性,限制了跨环境的可扩展性。更重要的是,这些方法很少训练模型来组织并折叠不断增长的上下文,因此无法根本解决长上下文干扰导致的状态跟踪失败和推理退化。  

受人类通过子目标分解和完成进度总结来处理长时域任务的启发,我们提出面向长时域LLM智能体学习的分层规划与信息折叠(HIPIF)。HIPIF以端到端方式训练智能体,围绕显式子目标组织长时域执行,并折叠已完成子目标的执行历史,从而减少长上下文干扰。为稳定基于子目标的规划与执行,HIPIF引入分层反思来改进子目标转换判断,并指导子目标的提出或当前子目标的执行。此外,为缓解长时域子目标训练中的稀疏奖励问题,HIPIF引入面向子目标的过程奖励,用于纠正不恰当的子目标和子目标内无效的执行行为。在三个公开可用的智能体基准上的大量实验结果及案例研究证明了HIPIF的有效性。进一步的效率分析表明,HIPIF在长时域交互中实现了更低的token使用量,同时避免了任务特定的专家轨迹和额外的辅助模型。  

总之,我们的主要贡献如下:  
- • 我们提出面向长时域LLM智能体学习的分层规划与信息折叠(HIPIF),训练模型围绕显式子目标组织长时域执行,并折叠已完成子目标的历史,以减少长上下文干扰。  
- • 为稳定基于子目标的规划与执行,我们引入分层反思和面向子目标的过程奖励,以改进子目标完成判断、子目标内容评估和子目标执行纠错。  
- • 在三个公开可用的智能体基准上的大量实验结果、效率分析及案例研究证明了HIPIF的有效性和效率。

## 2 相关工作  

#### LLM智能体。  
大型语言模型(LLMs)已被广泛用作交互式决策任务中的智能体[29(https://arxiv.org/html/2606.10507#bib.bib21)、30(https://arxiv.org/html/2606.10507#bib.bib1)、40(https://arxiv.org/html/2606.10507#bib.bib2)]。早期研究主要采用基于提示的框架,智能体通过外化中间决策过程来支持多步决策,例如Chain-of-Thought[35(https://arxiv.org/html/2606.10507#bib.bib23)]、ReAct[40(https://arxiv.org/html/2606.10507#bib.bib2)]和Reflexion[22(https://arxiv.org/html/2606.10507#bib.bib18)]。为改进LLM智能体在长时域任务中的表现,一些方法引入了记忆机制[42(https://arxiv.org/html/2606.10507#bib.bib29)、36(https://arxiv.org/html/2606.10507#bib.bib25)、19(https://arxiv.org/html/2606.10507#bib.bib16)]。例如,HiAgent[6(https://arxiv.org/html/2606.10507#bib.bib40)]使用提示指导子目标分解和历史折叠。然而,这些机制通常基于手工设计的提示或系统设计,缺乏环境反馈,因此在复杂的长时间任务中不可靠。另一类工作通过行为克隆或有监督微调从专家轨迹中学习智能体策略[3(https://arxiv.org/html/2606.10507#bib.bib7)、9(https://arxiv.org/html/2606.10507#bib.bib3)]。但这类方法严重依赖任务特定的专家轨迹,成本高昂且跨环境可扩展性有限。  

#### LLM智能体中的强化学习。  
强化学习(RL)提供了一种通过环境交互和奖励反馈优化LLM智能体的机制[37(https://arxiv.org/html/2606.10507#bib.bib4)、34(https://arxiv.org/html/2606.10507#bib.bib65)、15(https://arxiv.org/html/2606.10507#bib.bib12)]。现有工作将PPO[20(https://arxiv.org/html/2606.10507#bib.bib17)]、GRPO[21(https://arxiv.org/html/2606.10507#bib.bib57)]、RLOO[1(https://arxiv.org/html/2606.10507#bib.bib54)]或基于偏好的优化[18(https://arxiv.org/html/2606.10507#bib.bib56)]应用于LLM智能体,使模型能够从环境信号中改进行为。也有研究关注长时域智能体训练中的细粒度奖励分配[31(https://arxiv.org/html/2606.10507#bib.bib39)、32(https://arxiv.org/html/2606.10507#bib.bib63)、5(https://arxiv.org/html/2606.10507#bib.bib44)],因为最终任务奖励往往是稀疏且延迟的。这些方法通过回合级过程奖励模型或步骤级优势估计提供更局部的训练信号,代表例子包括GiGPO[4(https://arxiv.org/html/2606.10507#bib.bib8)]和HiSR[14(https://arxiv.org/html/2606.10507#bib.bib53)]。然而,它们主要改进轨迹内部的信用分配,但决策仍基于完整的观察-动作历史。因此,这些方法仍缺乏明确的任务阶段组织和上下文管理,无法从根本上缓解长上下文带来的推理退化。  

近期工作也使用RL训练记忆或上下文压缩机制[10(https://arxiv.org/html/2606.10507#bib.bib36)、19(https://arxiv.org/html/2606.10507#bib.bib16)],例如FoldGRPO[26(https://arxiv.org/html/2606.10507#bib.bib34)]、A-Mem[36(https://arxiv.org/html/2606.10507#bib.bib25)]和AgentFold[41(https://arxiv.org/html/2606.10507#bib.bib35)]。这些方法认识到记忆写入、检索或上下文压缩可以通过强化学习优化。然而,它们主要关注压缩长上下文,而非系统地提高长时域智能体的决策可靠性。  

此外,分层RL方法通过将复杂目标分解为子目标并相应优化策略,为长时域任务引入了分层结构[7(https://arxiv.org/html/2606.10507#bib.bib9)、43(https://arxiv.org/html/2606.10507#bib.bib30)、45(https://arxiv.org/html/2606.10507#bib.bib73)]。例如,HiPER[16(https://arxiv.org/html/2606.10507#bib.bib37)]专注于子目标提出和子目标级信用分配,而STEP-HRL[44(https://arxiv.org/html/2606.10507#bib.bib32)]从子目标建模和上下文压缩两个角度改进了长时域智能体训练。这些方法展示了子目标在复杂交互任务中的价值。然而,许多现有方法仍依赖辅助模型或任务特定的专家轨迹来进行子目标生成、上下文压缩或评论家估计,这增加了训练流水线的复杂性,限制了跨环境的可扩展性。

## 3 方法  
在本节中,我们介绍HIPIF的整体设计。如图1(https://arxiv.org/html/2606.10507#S3.F1)(a)所示,HIPIF采用端到端训练来实现分层规划与信息折叠。为稳定基于子目标的规划与执行,图1(b)引入了分层反思机制。最后,图1(c)展示了面向子目标的过程奖励,既用于子目标生成,也用于子目标内的执行。完整的训练流程总结在算法1(https://arxiv.org/html/2606.10507#alg1)中。

图1:HIPIF设计概览。(a):分层规划与信息折叠的端到端训练。(b):分层反思。(c):面向子目标的过程奖励。

### 3.1 分层规划与信息折叠的端到端训练  
为减少长上下文干扰,同时使基于子目标的执行可训练,我们引入了子目标级信息折叠和面向子目标决策的GRPO训练。

**分层规划与信息折叠。**  
在传统的多轮智能体任务中,LLM智能体通常遵循基于历史的条件化框架。在交互步骤 \(t\) 时,策略条件化的完整累积轨迹为:
\[
\tau_t = (c, o_1, a_1, o_2, a_2, \dots, o_t),
\]
其中 \(c\) 表示任务,\(o_t\) 是环境返回的观察,\(a_t\) 是模型响应,通常包含思考-动作对,遵循ReAct[40(https://arxiv.org/html/2606.10507#bib.bib2)]的方式。在长时域任务中,完整的交互历史会持续累积冗余信息。这种上下文噪声削弱了智能体对当前任务阶段的感知,降低了决策能力。  

我们借鉴人类处理长时域任务的方式:将复杂目标分解为子目标,并总结已完成进度。例如,在ALFWorld的PICK2任务中,一旦移动第一个物体的子目标完成,智能体应折叠该物体的执行历史,专注于移动第二个物体。保留第一个物体的完整执行历史反而可能引入上下文干扰,混淆模型的后续决策。基于这一观察,HIPIF围绕显式声明的子目标组织长时域交互,并折叠已完成子目标的执行历史。  

模型首先根据任务描述提出一个初始子目标。给定当前子目标后,模型反复生成动作来执行它,环境在每个动作后返回新的观察。一旦模型判断当前子目标已完成或应终止,HIPIF便折叠该子目标的执行历史,并提出下一个子目标。在每个决策步骤中,HIPIF通过结合折叠后的全局进度与详细的局部执行历史,维护一个紧凑的工作上下文。形式上,在当前子目标 \(g_k\) 的第 \(j\) 步,提供给策略的上下文为:
\[
C_{k,j} = [c; H_{\text{folded}}; g_k; (o_{k,1}, a_{k,1}, \dots, o_{k,j})],
\]
其中 \(H_{\text{folded}}\) 是截止到前一个子目标 \(g_{k-1}\) 的折叠历史摘要,\((o_{k,1}, a_{k,1}, \dots, o_{k,j})\) 是当前子目标内的当前局部轨迹。这种折叠机制确保了 \(H_{\text{folded}}\) 在子目标完成之前保持不变,减少了不必要的上下文增长;同时当前子目标的细粒度信息仍然可用,保证了精确的执行。

**面向子目标决策的GRPO训练。**  
由于子目标推理(提出和完成判断)与子目标执行(在当前子目标内的具体动作)的期望各不相同,HIPIF将它们建模为两个独立的输出,但共享单一参数化策略。对于子目标执行,我们使用标准GRPO[21(https://arxiv.org/html/2606.10507#bib.bib57)]进行优化,其中每个动作 \(a_{k,j}\) 的奖励为环境奖励 \(r_{\text{env}}\)。对于子目标推理,要求每个子目标 \(g_k\) 的提出和完成判断都获得单独的训练信号,这通过我们随后介绍的面向子目标的过程奖励来实现。

### 3.2 分层反思
为稳定基于子目标的规划与执行,我们引入分层反思机制。它由两个语用模块组成:**高层反思**(High-Level Reflection, HLR)用于判断子目标状态并建议后续步骤;**低层反思**(Low-Level Reflection, LLR)用于评估已执行的动作是否推进了当前子目标,并相应地重试或调整策略。

**高层反思。**  
在每个子目标结束时,分层反思在高层运作。具体来说,给定折叠上下文 \(C_{k,j}\) 和当前子目标 \(g_k\) 的部分执行历史,高层反思输出三种可能的决策之一:
- **完成**:当前子目标已成功完成。模型将提议下一个子目标。
- **继续**:当前子目标尚未完成,需要更多执行。
- **重新规划**:当前子目标不合适或无法完成,模型应重新提出更合适的子目标。

当判断为“完成”时,模型进一步输出下一个子目标的描述。当判断为“重新规划”时,模型输出修改后的或全新的当前子目标。高层反思的决策通过我们后面描述的过程奖励进行优化。

**低层反思。**  
在执行当前子目标的过程中,低层反思检查最近的动作和观察,并输出一个二元决策:
- **有效**:当前动作已朝子目标取得进展,继续执行当前子目标。
- **无效**:当前动作失败或偏离了子目标,模型应重试或调整策略。

当判断为“无效”时,模型会生成一个修正动作。低层反思的决策同样通过过程奖励进行优化。

### 3.3 面向子目标的过程奖励  
为了在子目标级别提供可靠的训练信号,我们引入了面向子目标的过程奖励。这些奖励为子目标内容和子目标执行提供步级反馈。

对于子目标内容,我们引入两条基于规则的惩罚。首先,我们从生成的子目标中提取物体和位置名称,并通过字符串匹配检查它们是否与环境上下文中的实体匹配。如果子目标不包含任何可辨认的物体或位置,我们给予 \(-0.1\) 的惩罚。其次,对于成功轨迹,我们检查每个终止子目标的最终观察。如果最终观察表示执行失败,例如“Nothing happens”或“No known action matches that input”,我们给予惩罚。

相似文章

改进前沿大语言模型中的指令层级

OpenAI Blog

OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。

AIPO:通过与主动交互学习推理

arXiv cs.CL

本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。