决策感知记忆卡:面向工具使用LLM代理的反事实启发式上下文选择与压缩

arXiv cs.AI 论文

摘要

介绍了CICL,一种决策感知上下文层,通过将上下文视为决策时刻的干预,使用反事实启发式评分和类型化记忆卡(受令牌预算限制),为工具使用的LLM代理选择和压缩证据。在SWE-bench和RepoBench上的实验显示,在检索准确性和行动关键性方面取得了实际提升。

arXiv:2606.08151v1 公告类型: 新 摘要: 工具使用的LLM代理失败往往不是因为相关文本缺失,而是因为决定性证据未能在行动时被选择、压缩或呈现。我们提出CICL,一种决策感知上下文层,将实例证据转化为上下文图,通过共享的八字段模式路由确定性、Opus辅助、Qwen、Codex/GPT-5.5和Qwen-QLoRA的判断,按行动偏移、结果提升、必要性和负迁移风险对单元评分,并将高实用性证据打包为类型化记忆卡供预算化代理使用。该设计将测量的决策信号与判断模型分离,使得前沿标注、本地替代模型和轻量级排序器可在同一可审计协议下进行比较。实证表明,CICL在公开基准测试中取得了具体的增益,同时暴露了其局限性。在50个SWE-bench Verified文件检索实例上,直接对BM25前50个候选进行Qwen3.6-plus重排序,hit@1从0.58提升至0.78,MRR@10从0.634提升至0.790,且所有2500个判断均可解析。受控诊断显示了行动关键性:在预算120时,CICL在v1上达到F1 0.620,在v3上达到0.425,而移除最高实用性的语义v3单元后导致F1降至0.000。补充检查包括Qwen-QLoRA在710个候选上的一致性、一个包含200个标签的真实代码Opus辅助信号、以及一个三实例补丁烟雾测试(验证检索到补丁的管道,但不宣称SWE-bench的成功)。RepoBench-R摘要仍优于记忆卡,紧凑型排序器尚未替代启发式方法。CICL贡献了一个可复现的测量和选择层,用于决策关键性上下文,而非端到端编码代理修复的主张。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:55

# 决策感知记忆卡片:面向工具使用LLM智能体的反事实启发式上下文选择与压缩
来源:https://arxiv.org/html/2606.08151

11机构:阿里巴巴集团,中国
11邮箱:guanhan\.gxy@alibaba\-inc\.com
11邮箱:zhaoqianyang\.zqy@alibaba\-inc\.com
11邮箱:finaldreamer@qq\.com
通讯作者:关新宇

###### 摘要

工具使用型LLM智能体失败的原因往往不是相关文本缺失,而是在行动时刻未能选择、压缩或呈现决定性证据。我们提出CICL,一个决策感知的上下文层,将实例证据转化为上下文图,通过共享的八字段模式路由确定性评判、Opus辅助评判、Qwen评判、Codex/GPT-5.5评判和Qwen-QLoRA评判,根据行动偏移量、结果提升量、必要性和负迁移风险对单元进行评分,并将高效用证据打包为类型化记忆卡片供预算受限的智能体使用。该设计将测量的决策信号与评判模型分离开来,使得前沿标注、本地替代模型和轻量级排序器可以在一个可审计的协议下进行比较。实验表明,CICL在公开基准测试上取得了具体可验证的增益,同时也暴露了其局限性。在50个SWE-bench Verified文件检索实例上,直接使用Qwen3.6-plus对BM25前50名候选进行重排序,将hit@1从0.58提升至0.78,MRR@10从0.634提升至0.790,且全部2,500个判断均可解析。受控诊断实验显示了行动关键性:在预算为120时,CICL在v1上达到F1 0.620,在v3上达0.425,而移除最高效用的语义v3单元后,F1骤降至0.000。补充检查包括Qwen-QLoRA在710个候选上的一致性、一个200标签的小型真实代码Opus辅助信号,以及一个三实例补丁冒烟测试验证从检索到补丁的流程,但不宣称SWE-bench官方成功。RepoBench-R摘要仍优于卡片,紧凑型排序器尚无法替代启发式方法。CICL贡献了一个可复现的决策关键上下文测量与选择层,而非端到端的编码智能体修复声明。

## 1 引言

工具使用型LLM智能体能够交错进行推理和行动[38],学习使用工具并根据反馈修正行为[28, 29],以及在开放环境中积累可复用技能[32]。在诸如SWE-agent[37]等编码系统中,这些智能体越来越多地受到上下文窗口质量的限制,而非仅受模型规模的限制。一个仓库问题可能取决于一个失败的测试、一个不变约束或一个文件级约束。最近的编码智能体上下文基准测试明确指出了这一瓶颈[21, 40]。更长的提示并不能保证这些证据在行动时刻被找到、保留或呈现。这使得上下文选择成为一个决策问题:有用的上下文不一定是在检索分数下最近的文本,而是能够改变智能体下一步行动准备的证据。

CICL将这一理念操作化,它将每个候选上下文单元视为一次决策时的干预。选择器评估添加该单元是否会改变下一步行动、是否会改善预期结果、是否对成功必不可少、或者是否会引入负迁移,然后在令牌预算下打包最高效用的证据。选定的单元被重写为包含触发条件、证据、行动提示、忽略后果和作用域字段的决策感知记忆卡片。这种判断模式与评判模型之间的分离在实践中很重要:根据预算、隐私和部署约束,可以使用昂贵的前沿标注器、本地Qwen评判器、轻量级排序器或特定供应商的代码模型,同时保持测量的决策信号具有可比性。图1给出了该流水线的概览。

实例证据 → 任务/文件/测试/轨迹/规则/记忆 → 上下文图 → 链接证据/检测冲突/保持作用域 → 决策效用引擎 → 行动偏移/成功增益/需求信号/风险与成本 → 记忆卡片 → 触发条件/证据/行动提示+作用域 → 预算受限智能体 → 打包上下文/选择行动/记录轨迹 → 评判路由器 → Opus/Qwen API/Codex/Qwen-QLoRA → 证据账本 → 支持/受限/延迟

图1:CICL流水线。该框架将实例证据转化为图结构,通过决策效用引擎路由评判信号,并为预算受限的智能体打包记忆卡片。Opus、直接Qwen API调用、Codex和训练的Qwen-QLoRA模型作为可选的本地替代分别报告,因此模型依赖的信号不会被合并为一个分数。

本文研究两个相互关联的问题。首先,决策感知效用是否能提供对智能体上下文有用的排序信号?其次,该信号是否能经受住评判器替换,而非退化为特定供应商的提示?我们首先呈现最具外部意义的结果:在开源SWE-bench Verified文件检索基准上,直接使用Qwen3.6-plus对前50名候选进行判断,在hit@1和MRR@10上均优于BM25。其余实验解释了为什么该信号是合理的、压缩何时有帮助,以及强简单基线在哪些地方仍暴露了边界。

##### 贡献。

(1) 我们将智能体上下文选择框定为一种决策时干预,并针对行动关键证据形式化了一个四分量效用函数。(2) 我们引入了决策感知记忆卡片和基于图的组装流水线,用于打包面向行动的上下文。(3) 我们在Opus辅助标注、轻量级排序器、Qwen系列评判器和Codex/GPT-5.5供应商检查上评估了相同的判断模式。(4) 我们提供了受控诊断实验,标明了框架有效的位置、开源检索提升的位置以及基线仍然更强的位置。

## 2 相关工作

##### 智能体、基准测试与上下文预算。

工具使用智能体表明LLM能够调用工具、复用经验并协调多步骤工作流。AutoGen和ChatDev将此模式扩展到协作软件开发[35, 26]。记忆基准表明最终成功对于智能体状态来说过于粗糙[6];增量和自我进化的设置加剧了这一问题[8, 34]。在代码领域,公共修复和仓库基准提供了真实场景,而Agentless和OpenHands标志着从非智能体修复到开放编码智能体基础设施的实际端点[36, 33]。CICL研究的是这些系统共享的一个更窄的层:在下一步行动之前,哪些检索到的证据会实际改变决策?

##### 检索与长上下文选择。

稀疏和稠密检索仍然是将证据放入智能体提示的默认路径。词法和监督稠密方法提供了强基线;Contriever和FAISS覆盖了无监督检索和向量搜索[11, 16]。RAG根据检索到的证据调节生成[20];Atlas和HyDE增加了检索规模预训练和假设证据[12, 5];Self-RAG在检索调节生成上增加了自我批评[1]。长上下文工作提供了一个警示:更多的令牌并不能确保显著事实在出现于分散注意力的位置时被使用[23, 2]。CICL将检索保留为候选生成,然后评估每个候选是否会改变预期的行动。

##### 记忆、压缩与贡献感知诊断。

智能体记忆和上下文学习方法将上下文作为智能体状态复用;在动机上最接近的是AutoContext[3]。ACE和ACON提供了相近的智能体适应基线[39, 17]。提示压缩方法通过估计令牌级或句子级效用减少长度。CICL则保留类型化的触发条件、证据、行动、失败和作用域字段,并询问压缩后一个单元是否仍能支持决策。最接近的贡献感知比较是因果记忆选择和RepoShapley[30, 9]。CICL仅将比较性监督和参数高效适配用作诊断机制,而非独立的编码智能体声明。

## 3 方法

### 3.1 决策感知上下文选择

考虑一个智能体策略π作用于任务x∈X。在每个决策步骤,智能体接收一个上下文块C⊆U,其中U是由实例图产生的候选单元池。与BM25[27]或稠密选择器如DPR和ColBERT[18, 19]不同,CICL将选中的证据视为一种干预。相关性选择器在令牌预算B下求解C^rel=arg max_tok(C)≤B Σ_{c∈C} sim(c,x)。CICL将sim替换为决策时效用U(c,x),该效用评估c是否会改变由π诱导的行动分布。

### 3.2 反事实启发式效用

设C^-表示在考虑候选c之前组装的上下文,设C^+=C^-∪{c}。用π(a|x,C)表示上下文C下的下一步行动分布,CICL将效用分解为四个分量:

Δ_act(c,x) = E[1{arg max_a π(a|x,C^+) ≠ arg max_a π(a|x,C^-)}]
Δ_out(c,x) = E[V(x,C^+) - V(x,C^-)]
N(c,x) = Pr[success(x,C^+)=1 ∧ success(x,C^-)=0]
R(c,x) = Pr[c在x上诱导负迁移]。

其中,V表示期望的成功得分。这些期望由每个实例化中使用的评估器操作化:确定性模拟器探测、供应商评判、或在相同参考上下文下的轻量级排序器预测。聚合效用是一个固定的线性聚合:

U(c,x) = α Δ_act(c,x) + β Δ_out(c,x) + γ N(c,x) - λ R(c,x)。

我们以三种方式实例化这四个分量:(i) 适用于消融和单元测试的确定性代理;(ii) Claude-Opus 4.7反事实标注助手,为每个(任务, 候选)对生成结构化的八字段评判;(iii) 在这些Opus辅助诊断标注上训练的25维成对线性排序器。这些标注由供应商生成并如实披露,而非人工金标准标签或发布的评判器副本。公式(3)是用于评判器风格判断的操作版本:它将评判器字段代入相同的带符号效用分量并添加有界成本惩罚。我们在Opus、Qwen和Codex/GPT-5.5评判器运行中保持此聚合固定以防止消融漂移;确定性代理消融使用相同的分量符号配合无模型估计:

s = 0.34 Δ_act + 0.26 N + 0.28 Δ_out - 0.22 R - 0.08 cost。

在实现中,对于LLM评判的单元,cost = min(1, tok(c)/1000 + 0.2R),与发布的评分器一致。公式(3)中的系数是预设的启发式权重,并非从测试标签中学习。分量移除消融提供了当前的敏感性证据;等权、随机权和学习权重的扫描留待未来工作。表1列出了评判器输出字段。我们强调,"因果"在此指反事实启发的效用估计,而非形式化的因果识别:上述期望并非通过随机化干预来识别,我们将此边界的详细讨论推迟到第7节。

表1:Opus和Qwen使用的八字段评判器模式。四个效用字段输入公式(3);置信度保留用于审计和诊断,令牌成本来自上下文元数据。

### 3.3 实例上下文图

对于每个仓库或环境实例,CICL构建一个图,其节点对应文件、符号、任务记忆、规则、失败和策略记录。边捕获包含关系、相似性、冲突、前提条件和任务记忆关系。该图支持词法和结构检索以及一跳邻居扩展,即使在查询词法重叠较弱时也能恢复决策相关上下文。每个节点是一个上下文单元,标注了标识符、实例ID、类型、来源、内容、令牌成本和置信度分数。重要的是,该图在选择时永远不需要金标准上下文标识符;金标准ID仅出现在离线评估和oracle基线中。我们审计所有面向方法的工件是否存在金标准标签泄露,并在可复现包中包含审计脚本。

### 3.4 决策感知记忆卡片

CICL将选定的单元编译为紧凑的记忆卡片,包含五个必填字段——*触发条件*(何时查阅)、*证据*(支持线索)、*行动提示*(下一步行动动词)、*忽略后果*(跳过时的风险)和*作用域*(适用边界)——外加一个诊断性的*因果分数*(U(c,x))用于排序。该格式优先考虑决策有用性而非穷举语义保真度。通用提示压缩通常优化令牌级或句子级重要性,如LLMLingua和LongLLMLingua[13, 14],或按显著性过滤[22];CICL则存储类型化的决策字段。一个确定性的结构审计检查必填字段完整性、行动动词存在性、压缩比以及是否存在占位文本。

### 3.5 预算感知组装

在推理时,CICL检索候选单元,扩展图邻居,通过U对候选进行评分,并在固定令牌预算下打包最高效用的证据。我们区分选择后压缩(先选择ID再压缩其文本)和预算前压缩(在选择前改变候选成本)。

相似文章

面向长周期任务的智能体兼容上下文管理

arXiv cs.AI

介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。