AGORA: 基于适配器的观测-动作保留——用于LLM代理的无推理提示压缩
摘要
AGORA 引入了一种用于LLM代理的无推理步骤级提示压缩器,避免了令牌级压缩器的'动作语法破坏'失效模式。它通过结构解析器、始终保留底限以及学习的相关性评分器,在9个环境中的8个(跨骨干网络)保留了≥75%的未压缩性能。
查看缓存全文
缓存时间: 2026/05/27 09:06
# 适用于 LLM 智能体的适配器引导的观察-动作保留机制:无需推理的提示压缩方法
来源:https://arxiv.org/html/2605.26596
###### 摘要
广泛应用于通用语言模型上下文的**标记级抽取式**压缩器,在结构上不适用于 LLM 智能体:在跨越两个独立标记级方法家族的 17 个(环境、骨干、方法)单元格中,每个单元格的平均奖励率均降至 $\textit{mr}\leq0.05$,尽管实现了 $1.3$–$13.3\times$ 的压缩率。我们命名并刻画了这种失败模式为**动作语法破坏**——承载动作语义的标记(标识符、括号、动作动词)恰好是自信息排名最低的那些,因此通用压缩器会可靠地移除它们,而环境则拒绝剩余部分。诊断结果表明需要采用**步骤粒度**的压缩。我们提出了 AGORA,一种无推理的步骤级压缩器,结合了结构化提示解析器、针对格式和近时关键内容的“始终保留”底线机制,以及一个基于反事实下一步动作变化标签(约 $2$ ms/步,零每步 LLM 开销)训练的 125M 参数相关度评分器。在所有比较的无推理和基于 LLM 的方法中,AGORA 是唯一一个在 9 个单元格中的 8 个(唯一例外为 73%)保留 $\geq 75\%$ 未压缩性能的方法;一项四路组件消融实验(表 3)将结构化底线机制识别为关键质量杠杆,而学习得到的评分器则是从单一固定保留比例实现 $1.0$–$11.5\times$ 自适应端到端压缩的来源。
代码:https://github.com/ranranrannervous/agoracompression
## 1 引言
LLM 智能体积累的轨迹随任务长度增长:在 WebShop 上达到第 30 步时,上下文历史可能超过 10 万个 token。对其进行压缩是一个实际需求,但压缩 LLM 智能体的提示在结构上与压缩单轮语言模型的提示并不相同。智能体对表面格式的敏感性是众所周知的:AgentBench (Liu et al. 2024b) 将“无效格式”和“无效动作”列为主要终止类别;仅保留语义的扰动就能在 ICL 任务上造成高达 76 个准确率点的波动 (Sclar et al. 2024),而限制 LLM 输出格式会显著降低推理能力 (Tam et al. 2024)。因此,压缩格式敏感型智能体的提示,其风险是压缩通用语言模型上下文所不具备的。
主导的设计家族有两个。**标记级抽取式**压缩器 (Jiang et al. 2023, 2024; Li et al. 2023b; Pan et al. 2024) 根据自信息或困惑度对标记进行排序,并丢弃低于预算的标记——这种方法廉价,并且在问答和摘要任务上可实现高达 $20\times$ 的压缩比,且损失极小。**基于 LLM 的生成式**压缩器每步调用一个辅助模型 (HiAgent (Hu et al. 2025),ACON (Kang et al. 2025)) 或每个窗口调用一次 (AgentDiet (Xiao et al. 2025))——以每个任务额外消耗 8-12.6 万 token 为代价保持质量。标记级家族尚未在智能体上经过系统性审计。我们正是这样做了,并发现它的失败不是边际性的,而是**结构性的**。
跨越 Selective Context (Li et al. 2023b)(6 个单元格)和 LLMLingua-2 (Pan et al. 2024)(11 个单元格,包括现成版和 $4\times$ 重训练版)的 17 个(环境、骨干、方法)单元格中,每个单元格均降至 $\textit{mr}\leq0.05$,尽管实现了 $1.3$–$13.3\times$ 的实际压缩率。其机制是动作语法破坏:携带动作语义的标记——例如 `search[men's shoes size 10]`、`click[Buy Now]`、标识符、括号、动作动词——恰好是那些自信息排名最低的标记,因为它们可以从自然语言上下文中预测出来。压缩器按设计工作;剩余部分是符合语法的英语,但却是环境拒绝的不符合语法的智能体命令。两种 LLMLingua-2 变体(现成版和在智能体数据上以 $4\times$ 目标重训练的版本)都出现了相同的失败,排除超参数调整的可能性。
该诊断明确了设计空间:智能体提示的压缩器必须**以步骤粒度**运行,逐字保留每个保留的(动作、观察)对,而不是在其中进行修剪。现有的步骤级方法通过每步调用 LLM 实现;Lindenbauer et al. (2025) 最近表明,在编码智能体上,即使是简单无推理的观察掩码规则也能匹配 LLM 摘要,表明无推理方向值得更多关注。我们将其进一步推进。我们提出 AGORA(适配器引导的观察-动作保留架构)——一个结构化解析器,将提示分割为角色类型块和(动作、观察)步骤对;一个“始终保留”底线机制,固定系统、任务、当前观察和最近 $K_{\text{recent}}=2$ 步;以及一个基于反事实下一步动作变化标签训练的 125M 参数 RoBERTa 相关度评分器,用于分配剩余字符预算;每步约 $2$ ms 的前向传播,无需 API 调用。我们并非将 AGORA 作为统一优越的压缩器提出:基于 LLM 的方法在 9 个单元格中的 7-8 个上在 $/任务 方面低于它,且其成本优势集中在长轨迹搭配昂贵骨干的场景下。
我们的贡献如下。
**智能体压缩的一个新失败模式。** 我们识别并命名了**动作语法破坏**——标记级抽取式压缩器在智能体上失败的结构性原因,在两个独立标记级方法家族的 17 个单元格审计中,表现为每个单元格都崩溃至 $\textit{mr}\leq0.05$。
**AGORA,一种无推理的步骤级压缩器。** 我们提出了一种与诊断相匹配的分层压缩器:一个结构化解析器、一个固定格式和近时关键内容的“始终保留”底线机制,以及一个基于反事实下一步动作变化标签训练的 125M 参数相关度评分器。AGORA 占据步骤级设计空间中无推理的角落,每步约 $2$ ms,零每步 LLM 开销。
**组件归因:哪个设计选择带来了什么。** AGORA 是唯一一个在 9 个单元格中的 8 个上保留 $\geq 75\%$ 未压缩性能的比较方法(唯一例外为 73%)。一项四路消融实验(表 3)将“始终保留”底线机制孤立为关键质量杠杆,而学习得到的评分器则是从单一固定保留比例实现自适应端到端压缩($1.0$–$11.5\times$)的来源。
## 2 相关工作
### 2.1 标记级提示压缩
主流的无推理压缩器根据信息准则对单个标记或句子进行排序,并丢弃得分最低的单元。Selective Context (Li et al. 2023b) 使用自信息评分;LLMLingua (Jiang et al. 2023) 和 LongLLMLingua (Jiang et al. 2024) 使用困惑度,后者以查询为条件;LLMLingua-2 (Pan et al. 2024) 将压缩重新定义为基于 BERT 类编码器(从 GPT-4 蒸馏而来)的标记分类;RECOMP (Xu, Shi, and Choi 2024) 将相同思路扩展到 RAG 句子选择,并采用下游任务对比目标。Li et al. (2025) 的标准分类将这些归为“硬提示”方法,与下面讨论的软提示家族并列,但其覆盖范围是单轮的,目前并未区分步骤级智能体轨迹单元。所有已发表的评估均基于问答、摘要或长上下文任务;我们在 §4.5 的审计显示,排序-丢弃范式在智能体上结构性失败,因为承载动作语义的标记恰好是那些自信息排名最低的。AGORA 在三个基本方面偏离了这一家族:决策单元是整个步骤(动作+观察对)而不是单个标记;训练信号是反事实的下一步动作变化,而不是抽取式忠实度;由于每个保留的步骤都是逐字保留的,动作语法内部的括号和标识符通过构造得到保留,而不是寄希望于标记评分器学会保留。
### 2.2 软提示和 KV 缓存压缩
第二个家族修改语言模型本身而非其输入:gist token (Mu, Li, and Goodman 2023)、上下文自动编码器 (Ge et al. 2023) 和自动压缩器 (Chevalier et al. 2023) 学习汇总输入的软提示,而 KV 缓存淘汰 (Xiao et al. 2024; Zhang et al. 2023; Li et al. 2024) 直接压缩注意力缓存。这两者都需要白盒骨干访问权,并产生非自然语言产物,这超出了我们设置的范畴——我们使用的是冻结的黑盒智能体骨干,不进行语言模型修改。
### 2.3 智能体上下文和记忆管理
与 AGORA 最接近的邻居是逐步压缩智能体轨迹的方法。HiAgent (Hu et al. 2025) 让骨干制定子目标,然后对每个子目标范围内的先前观察进行总结;ACON (Kang et al. 2025) 通过针对失败轨迹迭代优化的自然语言指南来压缩观察和交互历史;AgentDiet (Xiao et al. 2025) 在编码智能体的滑动窗口上运行 GPT-5-mini 反思模块;MemGPT (Packer et al. 2023) 通过 LLM 发出的函数调用在固定主上下文和外部存储之间进行信息分页。这四种方法在压缩时都调用 LLM,为每步 token 开销付费,而 AGORA 避免了这些。
最接近的**无推理**先例是 Lindenbauer et al. (2025),他们在 SWE-bench 上表明,一个固定的观察掩码规则能以大约一半的成本匹配 LLM 摘要。他们的规则是单领域的,没有学习组件;AGORA 可以被视为其泛化——结构化保留(角色块解析器 + $K_{\text{recent}}$ 近时“始终保留”)起到了同样的质量底线作用,而学习得到的评分器则扩展了仅靠底线机制实现的压缩率。另一个独立的工作方向解决的是跨试验而非试验内记忆——A-Mem (Xu et al. 2026)、Reflexion (Shinn et al. 2023)、ExpeL (Zhao et al. 2024)、Voyager (Wang et al. 2023)——与我们针对的工作记忆压缩问题正交。使用下游任务效用作为训练信号也有更粗粒度的先例,如 UDR (Li et al. 2023a)、LLM-R (Wang, Yang, and Wei 2024) 和 RECOMP (Xu, Shi, and Choi 2024);AGORA 的反事实标签(“移除这个过去步骤是否会改变下一步动作?”)将该思路专门化到步骤级智能体上下文。
### 2.4 动作格式脆弱性与结构优先于语义
我们的设计背后有两个背景文献。第一个记录了语言模型和智能体的格式敏感性:在 ICL 中格式比真实标签更重要 (Min et al. 2022),保留语义的扰动可使准确率波动高达 76 个点 (Sclar et al. 2024),模板选择可以将强模型降低到随机猜测水平 (Voronov, Wolf, and Ryabinin 2024),输出格式限制会降低推理能力 (Tam et al. 2024),以及检索中的位置效应呈 U 型 (Liu et al. 2024a)——后者直接激发了我们的 $K_{\text{recent}}$ 近时窗口。在智能体方面,AgentBench (Liu et al. 2024b) 将“无效格式”和“无效动作”列为主要终止类别,而 Cemri et al. (2026) 的多智能体失败分类法将 1242 个标注轨迹中的 38.1% 归因于规范问题。第二个是语言模型上下文工程中的一种结构优先于语义的模式:随机文档可以将 RAG 准确率提高高达 35%,而语义相关但不包含答案的文档造成的损害最大 (Cuconasu et al. 2024),多标准重排序优于仅最大化相关性 (LeVine and Varjavand 2025)——这两者都呼应了信息检索中经典的相关性 vs. 效用区分 (Cooper 1971; Saracevic 1975)。AGORA 自然地契合这一模式:标记级压缩器优化了一个对智能体而言错误指定的信息量轴,而约束条件实际上是动作语法结构的保留。
## 3 方法
步骤,$c_{\text{now}}$:当前观察,$c_{\text{pend}}$:待处理助手)并由三个子阶段压缩。**层 1(质量底线)** 无条件保留 $\{c_{\text{sys}}, c_{\text{task}}, c_{\text{now}}, c_{\text{pend}}\}$、最近 $K_{\text{recent}}=2$ 步以及任何评分器标记为 $p_i > \theta_{\text{hi}}=0.9$ 的过去步骤。**层 2(相关度评分器)** 是一个 125M 参数的 RoBERTa,输出 $p_i = P(\text{critical} \mid c_{\text{now}})$。**层 3(贪婪字符预算填充)** 根据 $p_i$ 对剩余过去步骤进行排序,并填充剩余字符预算 $B = \rho \|\tau_t\|$($\rho=0.25$)。压缩后的上下文 $\tilde{\tau}_t$(目标字符预算 $\rho=0.25$;实际端到端压缩在各单元格间变化为 $1.0$–$11.5\times$,见 §4.3)随后发送给冻结的骨干;虚线返回路径标明了从层 2 回到层 1 的高置信度覆盖。)
### 3.1 问题形式化
在步骤 $t$,一个 LLM 智能体拥有轨迹 $\tau_t = (c_0, a_1, o_1, \ldots, a_{t-1}, o_{t-1}, o_t)$,其中 $c_0$ 是固定的系统+任务块,$(a_i, o_i)$ 是第 $i$ 个动作-观察对。我们假相似文章
自适应潜在智能体推理
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。
我们构建了一个源码可用的LLM可靠性库(对研究/个人/内部评估免费),可在保持同等质量的前提下将推理成本降低一半,只需更改一个import语句即可采用 [P] [R]
AgentCodec 是一个源代码可用的库,它将 28 种 LLM 可靠性技术(如重试、集成、生成器/判别器优化等)统一到单一兼容 OpenAI 的 API 下,并配备自适应路由器,在匹配质量的情况下可降低约 56% 的推理成本。该库采用通信理论框架,支持即插即用替代 OpenAI、Anthropic 和 Ollama 客户端。
GenericAgent:一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体(V1.0)
本文介绍了 GenericAgent,这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程(SOP)以及高效压缩技术,解决了长周期任务的局限性,在与领先智能体的对比中,以更少的 Token 消耗实现了更优的性能表现。
Memory-R2: 面向长程记忆增强型LLM代理的公平信用分配
Memory-R2 引入了 LoGo-GRPO,这是一种结合了局部与全局分组相对优化的训练框架,为长程记忆增强型LLM代理提供更公平的信用分配,从而在多种骨干网络上提升准确率和推理延迟。
面向长周期任务的智能体兼容上下文管理
介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。