通过多准则潜在推理的编码代理上下文剪枝

arXiv cs.AI 2026/05/18 04:00 论文

coding-agents context-pruning llm multi-rubric latent-reasoning program-analysis mixture-of-experts

摘要

LaMR 提出了一种针对编码代理的结构化剪枝框架，将代码相关性分解为语义证据和依赖支持两个维度，使用专用的条件随机场和混合专家门控机制，在保持或提升任务性能的同时，最多可减少 31% 的 Token 使用量。

arXiv:2605.15315v1 公告类型：新摘要：基于大语言模型的编码代理将其大部分 Token 预算用于读取仓库文件，然而检索到的代码大多与当前任务无关。现有的学习型剪枝器使用单一目标的序列标注器来压缩上下文，将所有代码相关性维度合并为一个分数和一个转移矩阵。我们发现这种公式化会导致建模瓶颈：单个 CRF 转移先验必须服务于异质的保留模式，包括连续的语义片段和稀疏的结构支持行。我们提出 LaMR（潜在多准则），一种结构化剪枝框架，将代码相关性分解为两个可解释的质量维度：语义证据和依赖支持，每个维度由专用的 CRF 建模，具有维度特定的转移动态。混合专家门控网络根据查询动态加权每个维度的发射分数，最终 CRF 层基于融合的发射分数产生整体的保留或剪枝决策。为了在不增加标注成本的情况下监督每个维度，我们通过基于 AST 的程序分析从现有训练语料中导出多准则标签，同时去除教师二值标签中的噪声。通过有效过滤干扰噪声，LaMR 经常匹配甚至超越未剪枝的全上下文基线。在四个基准（SWE-Bench Verified、SWE-QA、LCC、LongCodeQA）上的实验表明，LaMR 在 16 次多轮比较中赢得了 12 次。它在多轮代理任务上最多节省 31% 的 Token，在单轮任务上精确匹配提升最多 +3.5，同时由于上下文去噪，性能经常得到提升，任何剩余的下降都是微小的。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:31

# 面向编程智能体的上下文剪枝：基于多维度潜在推理
来源：https://arxiv.org/html/2605.15315
Jingjing Wang\(^{1}\) Clemson University jingjiw@clemson\.edu &Xiwen Chen Morgan Stanley xiwen\.chen@morganstanley\.com &Wenhui Zhu\(^{1}\) Arizona State University wzhu59@asu\.edu Huayu Li University of Arizona hl459@arizona\.edu & Zhengxiao He University of Arizona zhengxiaohe@arizona\.edu & Feiyang Cai Clemson University feiyang@clemson\.edu & Ana S\. Carreon\-Rascon University of Arizona anascarreonr@arizona\.edu & Xuanzhao Dong Arizona State University xdong64@asu\.edu & Feng Luo Clemson University luofeng@clemson\.edu \(同等贡献\)。

###### 摘要

基于 LLM 的编程智能体将大部分令牌预算用于读取代码仓库文件，然而检索到的代码中很大一部分与当前任务无关。现有的学习型剪枝器通过单目标序列标注器压缩上下文，将代码相关性的所有方面压缩为一个分数和一个转移矩阵。我们发现这种建模方式存在瓶颈：单个 CRF 转移先验必须服务于异质的保留模式，包括连续的语义片段和稀疏的结构支撑行。我们提出 LaMR（Latent Multi-Rubric），一个结构化剪枝框架，将代码相关性分解为两个可解释的质量维度：语义证据和依赖支撑，每个维度由一个专用的 CRF 建模，并配备维度特定的转移动态。一个混合专家门控网络根据查询动态加权每个维度的发射分数，最终融合后的发射分数经由一个 CRF 层产生最终的保留或剪枝决策。我们通过基于 AST 的程序分析从现有训练语料中导出多维度标签，无需额外标注成本，同时对教师模型的二元标签进行去噪。通过有效过滤干扰噪声，LaMR 经常达到甚至超越未剪枝的全上下文基线。在四个基准（SWE-Bench Verified、SWE-QA、LCC、LongCodeQA）上的实验表明，LaMR 在 16 场多轮对比中赢得了 12 场。在多轮智能体任务中，它最多可节省 31% 的令牌，并在单轮任务中将精确匹配率提升高达 +3.5%，同时通过上下文去噪经常提升性能，且任何下降都是微小的。

![见图注](x)图表加载中…
图 1：LaMR 在两个骨干模型和三个基准上的效果。左：令牌消耗（千令牌）；百分比标签显示了 LaMR 相对于未剪枝的减少量。中/右：任务质量（SWE-Bench 解决率 %；SWE-QA 平均分，10 分制）。灰色条为未剪枝基线，蓝色条为使用 LaMR 的结果。LaMR 在保持或略微提升质量的同时，持续减少令牌使用量。## 1 引言

基于 LLM 的编程智能体正在迅速重塑软件工程，诸如 SWE-agent (Yang et al., 2024 (https://arxiv.org/html/2605.15315#bib.bib6))、OpenHands (Wang et al., 2024b (https://arxiv.org/html/2605.15315#bib.bib33)) 和 Agentless (Xia et al., 2024 (https://arxiv.org/html/2605.15315#bib.bib34)) 等最先进框架正在自动化复杂的仓库级任务。商业上的成功也随之而来：Anthropic 的 Claude Code 和 Cursor 通过每天处理数百万行代码，达到了数十亿美元的估值。然而，这些智能体遇到了上下文墙：它们花费大约 67–76% 的令牌预算仅仅用于读取文件 (Wang et al., 2026 (https://arxiv.org/html/2605.15315#bib.bib4))。这种上下文膨胀不仅导致了高昂的 API 成本，还引发了“注意力稀释”和“中间丢失”现象 (Liu et al., 2023a (https://arxiv.org/html/2605.15315#bib.bib12))，即无关的代码片段降低了智能体的推理精度。

对上下文效率的探索经历了三个不同的范式。最初采用任务无关的启发式方法，例如基于困惑度的令牌剪枝 (Jiang et al., 2023 (https://arxiv.org/html/2605.15315#bib.bib8); Li et al., 2023 (https://arxiv.org/html/2605.15315#bib.bib9)) 或基于相似度的 RAG (Gao et al., 2023 (https://arxiv.org/html/2605.15315#bib.bib1))。然而，如 (Shi et al., 2025 (https://arxiv.org/html/2605.15315#bib.bib19)) 所述，这些方法主要针对自然语言，在应用于代码时面临关键限制：令牌级剪枝经常破坏语法有效性，而抽象方法则丢弃了调试所必需的字符级细节。此外，这些方法采用静态压缩比和任务无关的标准，无法适应多轮智能体交互中不断变化的信息需求 (Yang et al., 2024 (https://arxiv.org/html/2605.15315#bib.bib6))。

最近，SWE-Pruner (Wang et al., 2026 (https://arxiv.org/html/2605.15315#bib.bib4)) 通过将代码上下文剪枝构建为一个结构化序列标注任务缓解了这一问题。它通过最小化条件随机场负对数似然 (CRF-NLL) (Zheng et al., 2015 (https://arxiv.org/html/2605.15315#bib.bib5)) 来训练一个 0.6B 参数的神经筛选器。这允许自适应地减少令牌使用，同时保持字符级完整性。然而，这种单目标公式引入了一个固有的冲突：它使用一个转移矩阵来建模所有类型的代码相关性。代码相关性在不同维度上运作。语义相关性通常形成连续块，这需要在 CRF 中具有较高的自转移概率。相比之下，结构依赖（如 `import` 语句）和控制流对（如 `try/except`）是分散的。单个转移矩阵造成了建模瓶颈：它必须用一组参数同时服务密集的语义片段（连续保留块）和稀疏的结构支撑（分散的单行跳转）。由于被迫妥协，模型偏向于更密集的语义块。它保留了主要函数体，但丢弃了必要的结构行（图 2 (https://arxiv.org/html/2605.15315#S1.F2)）。这种缺失的结构会严重影响强大的编程智能体。当像 Claude 4.6 这样的模型遇到损坏的语法或缺失的上下文时，它们会失败并反复重试任务。这些迭代重试最终消耗的令牌比未剪枝的基线更多。

为了解决这个问题，我们提出了 LaMR（Latent Multi-Rubric）。我们将代码相关性分解为 \(K\) 个潜在维度，每个维度由一个专用的 CRF 头建模，并配备自己的转移矩阵。这允许维度特定的序列模式。然后，一个查询自适应的混合专家 (MoE) 门将各维度的 CRF 发射分数组合起来，为当前任务动态平衡语义和结构信号。由于现有数据集仅提供二元保留/剪枝掩码，我们引入了基于维度的标签生成方法，无需额外标注即可获得细粒度的监督。利用抽象语法树 (AST) 分析，我们从现有掩码中提取维度特定的标签，并恢复教师模型可能遗漏的结构必要行，例如导入、类头和控制流伴侣。这为神经筛选器产生了更清晰的训练信号。更广泛地说，LaMR 不仅仅是删除令牌；它旨在保留自包含的证据-支撑单元：任务相关行以及解释它们所需的结构上下文。通过有效从噪声中提取信号，LaMR 为智能体提供了更高质量的观测。我们实证表明，这种结构感知方法不仅压缩了上下文，还有潜力提升智能体的最终任务性能。

我们总结我们的贡献如下：
(i) **潜在多维度公式**。我们识别了单目标剪枝中的转移冲突，并通过 \(K\) 个独立的 CRF 头建模代码相关性来解决它。
(ii) **查询自适应门控**。我们使用 MoE 门控网络，根据智能体的查询调整对语义和结构代码的关注。
(iii) **基于 AST 的标签去噪**。我们开发了一个零成本管道，从二元掩码中提取多维标签，这纠正了教师数据中缺失的结构令牌。
(iv) **卓越的效率-性能权衡**。我们在四个基准和两个最先进的 LLM 骨干上广泛评估了 LaMR。作为一种轻量级中间件，它持续缓解令牌膨胀，并在上下文压缩和下游任务质量之间实现了比先前方法严格更好的权衡。

查询：*“中间件如何验证 JWT 令牌？”*
[⬇](data:text/plain;base64,aW1wb3J0IGp3dCAgICAgICAgICAgICAgICAgICAgICAgICAgIEBcaGZpbGxcdGV4dGNvbG9ye2RlcH17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsZGVwfUAKZnJvbSBjb25maWcgaW1wb3J0IFNFQ1JFVF9LRVkgICAgICAgIEBcaGZpbGxcdGV4dGNvbG9ye2RlcH17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsZGVwfUAKCmNsYXNzIEF1dGhNaWRkbGV3YXJlOiAgICAgICAgICAgICAgICBAXGhmaWxsXHRleHRjb2xvcntkZXB9e1x0aW55JFxibGFja3RyaWFuZ2xlbGVmdCRcLGRlcH1ACiAgICBkZWYgdmFsaWRhdGVfdG9rZW4oc2VsZiwgdG9rZW4pOiBAXGhmaWxsXHRleHRjb2xvcntzZW19e1x0aW55JFxibGFja3RyaWFuZ2xlbGVmdCRcLHNlbX1ACiAgICAgICAgdHJ5OiAgICAgICAgICAgICAgICAgICAgICAgICBAXGhmaWxsXHRleHRjb2xvcntkZXB9e1x0aW55JFxibGFja3RyaWFuZ2xlbGVmdCRcLGRlcH1ACiAgICAgICAgICAgIHBheWxvYWQgPSBqd3QuZGVjb2RlKCAgICBAXGhmaWxsXHRleHRjb2xvcntzZW19e1x0aW55JFxibGFja3RyaWFuZ2xlbGVmdCRcLHNlbX1ACiAgICAgICAgICAgICAgICB0b2tlbiwgU0VDUkVUX0tFWSwgICBAXGhmaWxsXHRleHRjb2xvcntzZW19e1x0aW55JFxibGFja3RyaWFuZ2xlbGVmdCRcLHNlbX1ACiAgICAgICAgICAgICAgICBhbGdvcml0aG1zPVsiSFMyNTYiXSBAXGhmaWxsXHRleHRjb2xvcntzZW19e1x0aW55JFxibGFja3RyaWFuZ2xlbGVmdCRcLHNlbX1ACiAgICAgICAgICAgICkKICAgICAgICAgICAgcmV0dXJuIHBheWxvYWQgICAgICAgICAgIEBcaGZpbGxcdGV4dGNvbG9ye3NlbX17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsc2VtfUAKICAgICAgICBleGNlcHQgRXhwaXJlZFNpZ25hdHVyZUVycm9yOkBcaGZpbGxcdGV4dGNvbG9ye2RlcH17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsZGVwfUAKICAgICAgICAgICAgcmV0dXJuIE5vbmUgICAgICAgICAgICAgIEBcaGZpbGxcdGV4dGNvbG9ye2RlcH17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsZGVwfUAKICAgICAgICBleGNlcHQgSW52YWxpZFRva2VuRXJyb3I6ICAgIEBcaGZpbGxcdGV4dGNvbG9ye2RlcH17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsZGVwfUAKICAgICAgICAgICAgcmV0dXJuIE5vbmUgICAgICAgICAgICAgIEBcaGZpbGxcdGV4dGNvbG9ye2RlcH17XHRpbnkkXGJsYWNrdHJpYW5nbGVsZWZ0JFwsZGVwfUAKICAgIGRlZiBwcm9jZXNzX3JlcXVlc3Qoc2VsZiwgcmVxKToKICAgICAgICAuLi4=)1import jwt ◀ dep  
2from config import SECRET_KEY ◀ dep  
3  
4class AuthMiddleware: ◀ dep  
5    def validate_token(self, token): ◀ sem  
6        try: ◀ dep  
7            payload = jwt.decode( ◀ sem  
8                token, SECRET_KEY, ◀ sem  
9                algorithms=["HS256"] ◀ sem  
10            )  
11            return payload ◀ sem  
12        except ExpiredSignatureError: ◀ dep  
13            return None ◀ dep  
14        except InvalidTokenError: ◀ dep  
15            return None ◀ dep  
16    def process_request(self, req):  
17        ...

(a) 单目标  (b) LaMR（多维度）  
■ 语义  ■ 依赖

图 2：单目标剪枝器将语义和结构相关性合并为一个分数，丢弃仅语义排名较低的行。LaMR 将相关性分解为两个维度（语义和依赖），每个维度有一个专用的 CRF，并通过查询自适应门控进行融合。
## 2 预备知识

**代码上下文剪枝。** 给定一个代码上下文 \(C=(x_1,\dots,x_n)\)，包含 \(n\) 个令牌，以及一个描述智能体当前信息需求的自然语言查询 \(q\)，任务是生成一个二元标签序列 \(\mathbf{y} \in \{\texttt{keep},\texttt{prune}\}^n\)，使得保留的令牌保留与查询相关的信息，同时最小化上下文长度。令牌级分数聚合成行级粒度，并通过阈值化产生最终的剪枝输出。

**从启发式到学习型剪枝。** 先前的方法依赖任务无关的启发式：LLMLingua (Jiang et al., 2023 (https://arxiv.org/html/2605.15315#bib.bib8)) 和 Selective-Context (Li et al., 2023 (https://arxiv.org/html/2605.15315#bib.bib9)) 基于困惑度或自信息剪枝令牌，而基于 RAG 的方法通过嵌入相似度检索代码块 (Guo et al., 2022 (https://arxiv.org/html/2605.15315#bib.bib10))。这些方法使用表面统计，而不理解代码结构或智能体的意图。SWE-Pruner (Wang et al., 2026 (https://arxiv.org/html/2605.15315#bib.bib4)) 采用了一种根本不同的方法：它训练一个轻量级神经筛选器，*学习*将查询条件的剪枝作为带有线性链 CRF 的结构化序列标注 (Zheng et al., 2015 (https://arxiv.org/html/2605.15315#bib.bib5))。CRF 联合建模整个标签序列的条件概率，而不是独立预测每个令牌：

\[
P(\mathbf{y} \mid \mathbf{x}) = \frac{1}{Z(\mathbf{x})} \exp\!\Bigl( \sum_{t=1}^n \phi(y_t,\mathbf{x},t) + \sum_{t=2}^n \psi(y_{t-1},y_t) \Bigr),
\]
其中 \(\phi(y_t,\mathbf{x},t)\) 是*发射势*，根据令牌 \(t\) 单独的内容评估其被保留或剪枝的可能性，而 \(\psi(y_{t-1},y_t)\) 是*转移势*，存储在一个可学习的 \(2 \times 2\) 矩阵中，倾向于相邻令牌标签的一致性（例如，偏好连续的保留而非孤立的保留）。\(Z(\mathbf{x})\) 是通过前向算法计算的归一化常数。这种结构化公式避免了碎片化剪枝，在 SWE-Bench Verified 上实现了 23–38% 的令牌减少，同时提高了任务成功率。

**单目标剪枝的局限性。** 尽管有效，单目标 CRF 公式有一个固有的局限性：它依赖一套发射分数和一个转移矩阵，将代码相关性的多个方面压缩为一个标量。如图 2 (https://arxiv.org/html/2605.15315#S1.F2) 所示，当查询针对令牌验证逻辑时，模型正确识别核心函数体为相关，但丢弃了 `import` 语句（语义分数低，但结构上必要）、类头（结构脚手架）以及 `except` 子句（语义相关性低，但与 `try` 块上下文配对）。这些失败源于一个基本矛盾：单个转移矩阵必须同时建模 (i) 连续语义块和 (ii) 非连续依赖链（包括配对的控制流结构）。这些失败反映了一个建模瓶颈：一个转移先验必须同时服务于连续的语义片段和稀疏的依赖支撑行。由于模型没有明确区分为什么某一行应该被保留，它可能偏好密集的语义块，而未能充分保留解释它们所需的结构支撑。

## 3 方法

**核心见解** 代码相关性不是一个单一的量化指标。一行代码可能因其与查询的*语义*匹配而被保留，也可能因其在*结构依赖*链中的作用（导入、作用域头、配对控制流）而被保留。这些方面表现出不同的序列动态，一个单一的 CRF 转移矩阵无法容纳。LaMR 为每个方面分配一个独立的 CRF 头，带有独立的转移矩阵，并通过查询自适应门控网络进行融合。

我们将代码相关性分解为 \(K\) 个质量维度 \(O = \{o_1,\dots,o_K\}\)，每个维度捕获保留某一行的不同原因（图 2 (https://arxiv.org/html/2605.15315#S1.F2)）。实际上我们使用 \(O = \{\text{semantic}, \text{dependency}\}\)（\(K=2\)）：*语义*捕获与查询的主题相关性，而

通过多准则潜在推理的编码代理上下文剪枝

相似文章

自适应潜在智能体推理

小型语言模型的代码引导推理：可执行MCQA脚手架评估

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

更少上下文，更智能代理：面向长周期工具使用的LLM代理的高效上下文工程

上下文、推理与层次结构：对抗性POMDP中复合LLM智能体设计的成本-性能研究

提交意见反馈