并非所有技能都有帮助：衡量与修复智能体知识

arXiv cs.CL 2026/06/16 04:00 论文

llm-agents skill-curation causal-attribution appworld tau-bench deepseek-v3 gpt-4.1

摘要

本文指出，在LLM智能体中简单积累技能可能导致性能倒退，因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架，该框架衡量每个技能的因果贡献，并对每个任务进行掩码处理，在不更新权重的情况下，在AppWorld和τ-bench上取得了最先进的结果。

arXiv:2606.15390v1 公告类型：新摘要：LLM智能体可以通过从经验中积累自然语言技能来在不更新权重的情况下改进，但当前系统将关于保留哪些技能以及如何应用它们的每个决策完全委托给LLM自身的判断。我们认为这混淆了两个不同的角色：从经验中生成技能是一项创造性的行为，判断可以很好地处理；而决定该技能是否真正有帮助则需要跨多个任务的实证证据。通过随机掩码测量每个技能的因果贡献，我们发现技能库表现出普遍的因果异质性：单个技能通常在某些任务类型上有帮助，但在其他任务上却有损害，然而它们的相反效应在总体上相互抵消，使得全局整理方法难以发现它们。我们提出ASSAY框架，该框架将生成与整理分离：它在一个小型开发集上计算每个技能的因果归因，离线重组技能库，并为每个测试任务抑制具有负面预测效果的技能。在涵盖四个提供商的七个基础模型以及两个基准（AppWorld和tau-bench）上，ASSAY一致优于先前的技能整理方法。在AppWorld最困难的分支上，DeepSeek-V3实现了69.3%的任务目标完成率（相对提升47.4%），在所有已发表方法（包括权重调优方法）中达到了新的最先进水平。在tau-bench零售领域，GPT-4.1相对提升了8.7%，在公共排行榜上超越了o4-mini、o1和GPT-4.5，且未进行任何权重修改。消融实验将主要收益归因于每个任务的掩码处理，证实瓶颈在于推理时为任务匹配技能，而非全局去除不良技能。代码可在https://github.com/aiming-lab/assay获取。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:47

# 并非所有技能都有用：衡量与修复智能体知识

来源: https://arxiv.org/html/2606.15390
Yixuan Wang¹\* Yiyang Zhou¹\* Yiming Liang² Congyu Zhang¹ Fuxiao Liu³ Jiawei Zhou¹ Huaxiu Yao¹ ¹北卡罗来纳大学教堂山分校 ²普渡大学 ³英伟达

###### 摘要

LLM 智能体可以通过从经验中积累自然语言技能来改进而无需更新权重，但当前的系统将所有关于保留哪些技能以及如何应用它们的决策都委托给了 LLM 自身的判断。我们认为这混淆了两个不同的角色：从经验中生成技能是一种创造性的行为，判断可以很好地处理；而决定该技能是否真的有用则需要跨多个任务的实证证据。通过随机掩码测量每个技能的因果贡献，我们发现技能库表现出普遍的因果异质性：单个技能通常在某些任务类型上有帮助，而在另一些任务类型上有害，然而它们相反的效果在总体上相互抵消，使得全局筛选方法无法发现它们。我们提出了 Assay 框架，它将生成与筛选分离开来：它在一个小型开发集上计算每个技能的因果归因，离线重构库结构，并为每个测试任务抑制预测效果为负的技能。在跨四个提供商的七个基础模型和两个基准测试（AppWorld 和 τ-bench）上，Assay 始终优于先前的技能筛选方法。在 AppWorld 最难的任务划分中，DeepSeek-V3 达到了 69.3% 的任务目标完成率（相对提升 47.4%），在所有已发布的方法（包括权重微调方法）中创下了新的最佳记录。在 τ-bench 零售任务上，GPT-4.1 相对提升了 8.7%，在未进行任何权重修改的情况下，在公开排行榜上超越了 o4-mini、o1 和 GPT-4.5。消融实验将主要增益归因于每个任务的掩码，证实瓶颈在于推理时将技能与任务匹配，而非全局移除不良技能。代码可在 https://github.com/aiming-lab/assay 获取。

††脚注: ∗表示同等贡献。

## 1 引言

过去两年，LLM 智能体在无需权重更新的情况下取得了快速进展。方法很简单：让智能体尝试任务，将成功的轨迹提炼为自然语言的*技能*（简短的规则、启发式方法、程序模板），并将它们注入到未来任务的上下文窗口中 [9 (https://arxiv.org/html/2606.15390#bib.bib1)，23 (https://arxiv.org/html/2606.15390#bib.bib2)，22 (https://arxiv.org/html/2606.15390#bib.bib3)，3 (https://arxiv.org/html/2606.15390#bib.bib4)]。在诸如 AppWorld [11 (https://arxiv.org/html/2606.15390#bib.bib8)] 这样的交互式基准测试上，基于技能的方法已经取得了两位数的提升，可以与微调模型权重的方法相媲美。这些工作中暗含着一个假设：LLM 的判断对于整个技能生命周期来说是一个足够的监督信号。生成、保留和检索都委托给了同一个 LLM，并且从未检查过保留的技能是否真的有用。

我们发现这种不加检查的积累有一个系统性的缺点。在七个模型和两个基准测试上，在学习的任务中必不可少的技能，在不适用它们的任务上变成了纯粹的负担。在 AppWorld 上，针对多步骤购买的规则耗尽了简单单步操作任务的步骤预算；在 τ-bench 零售任务 [17 (https://arxiv.org/html/2606.15390#bib.bib9)] 上，来自复杂交易的规则使简单的取消操作偏离轨道。图 1 (https://arxiv.org/html/2606.15390#S1.F1) 端到端地追踪了一个实例：一个 Spotify 播放验证规则分散了智能体在亚马逊购买任务中对某个尺寸约束的注意力；每个任务的掩码抑制了它，智能体便成功了。当我们追踪数百个任务中的失败时，我们发现一小部分技能导致了不成比例的回归，并且同一个技能可能在一个任务类型上有帮助，而在另一个任务类型上有害。

参见图注
图 1：为一个领域设计的技能可能会损害另一个领域的任务；每个任务掩码解决了这个问题。任务是在亚马逊上购买一个咖啡研磨机，要求适合 6.3×6.3 英寸的台面，并且卖家评分 ≥4.5。*左图*：没有任何技能库，智能体未能强制执行尺寸约束。*中图*：完整的技能库使情况变得更糟：不相关的规则，包括一个 Spotify 播放验证规则 (vc-00043) 和一个副作用检查规则 (vc-00021b)，分散了智能体对尺寸要求的注意力。*右图*：每个任务掩码抑制了这两个技能，智能体成功了。技能 vc-00043 的因果效应在开发任务上平均为 −0.067（底部），证实了持续的有害影响。

为了理解这些失败，我们通过随机掩码 [2 (https://arxiv.org/html/2606.15390#bib.bib14)] 在保留任务上测量每个技能的因果效应。由此产生的归因揭示了*因果异质性*：许多技能在不同任务类型上符号相反，在某些任务上有帮助，在另一些任务上有害。单个任务的判断无法检测到这一点，因为只有当证据跨多个任务聚合时，这种符号反转才可见。因此，我们将这两个角色分离开来：判断生成技能，而测量筛选技能。我们提出了 Assay 框架，该框架在三个阶段实现这种分离：通过随机掩码在保留任务上测量每个技能的因果效应，通过拆分异质技能和淘汰惰性技能来离线重构库结构，并通过抑制预测影响为负的技能来为每个测试实例个性化库。

总之，我们的主要贡献是 Assay，一个框架，它提供了智能体技能库中因果异质性的首次实证描述，以及解决该问题的实用方法。在七个模型和两个基准测试上，Assay 始终优于先前的筛选方法，其中 DeepSeek-V3 在 AppWorld 上达到了新的最佳水平（69.3% TGC，相对提升 47.4%），而 GPT-4.1 在 τ-bench 上无需权重修改就超越了 o4-mini、o1 和 GPT-4.5。消融实验将主要增益归因于每个任务的掩码，证实瓶颈在于推理时将技能与任务匹配，而非全局移除不良技能。

## 2 Assay：基于归因的技能选择与组装

从一个单一任务中生成有用的技能需要创造力；而决定该技能是否在多个任务中真正有用需要实证证据，这是单个任务无法提供的。我们在一个称为 Assay 的框架中实现了这种分离。整个框架源于一个单一对象：一个每个技能、每个任务的因果归因矩阵 C ∈ R^N×M，在小型保留集上计算一次，所有筛选决策都源于此。我们描述如何测量 C（§2.1 (https://arxiv.org/html/2606.15390#S2.SS1)），它如何指导离线库重构（§2.2 (https://arxiv.org/html/2606.15390#S2.SS2)），以及它如何在推理时为每个测试任务个性化库（§2.3 (https://arxiv.org/html/2606.15390#S2.SS3)）。图 2 (https://arxiv.org/html/2606.15390#S2.F2) 给出了概览。

预备知识。我们假设存在一个由现有筛选流程生成的技能库 S = {s_1, ..., s_N}，以及一个与训练集和测试集均不相交的保留开发集 D = {d_1, ..., d_M}。在上游筛选过程中，我们采用难度感知排序：每个训练任务用裸智能体运行两次以估计难度，任务按最难优先排序，以便筛选器尽早遇到高信号失败案例。生成的库包含从训练轨迹中自动提炼的技能。

除了这些学到的技能，我们还附加了五个手写的操作模板（prefixtpl-），它们捕获常见的程序模式，如分页、数据验证和跨应用身份解析。这些模板源自每个基准测试的公开文档和训练集失败分析，并被标记为受保护的：它们免于所有后续修改和掩码（全文见附录 B (https://arxiv.org/html/2606.15390#A2)）。

参见图注
图 2：框架概览。*阶段 1*：随机掩码产生一个因果归因矩阵 C ∈ R^N×M；每个单元格记录一个技能在给定任务上是有帮助（绿色）还是有害（红色）。*阶段 2*：由 C 驱动的三个操作（*拆分*、*淘汰*、*合并*）在离线状态下重构库结构，受开发集门控约束。*阶段 3*：在推理时，每个任务掩码抑制预测因果效应为负的技能，并回退到完整库。

### 2.1 测量因果效应

技能库是自然语言指令的集合，它们共同塑造智能体的行为。评估任何单个技能的挑战在于其效果取决于哪些其他技能共同存在：一个验证规则单独存在可能无害，但与一个已经执行相同检查的分页规则一起存在则有害。为了理清这些交互，我们求助因果推断中最简单的工具：随机实验。

随机掩码协议。对于 K 个独立试验中的每一个，我们通过以概率 f（伯努利抽样）独立地包含每个技能来构建一个随机掩码 m_k ⊆ S。令 1[s_j ∈ m_k] 表示技能 s_j 在掩码 m_k 中的包含指示符，令 o_k(d_i) ∈ {0, 1} 表示智能体在掩码 m_k 下在开发任务 d_i 上的二元结果。定义包含和排除技能 s_j 的掩码集分别为 M_j^+ = {k: s_j ∈ m_k} 和 M_j^- = {k: s_j ∉ m_k}。技能 s_j 在任务 d_i 上的因果分数是均值差估计量：

C[j, i] = (1/|M_j^+|) ∑_{k∈M_j^+} o_k(d_i) − (1/|M_j^-|) ∑_{k∈M_j^-} o_k(d_i)。 （1）

在伯努利抽样下，技能被独立包含，因此 C[j, i] 是包含技能 s_j 对任务 d_i 的平均处理效应 (ATE) 的无偏估计量，边际化了共现技能的分布。该估计量的方差受限于

Var(C[j, i]) ≤ (1/4) (1/|M_j^+| + 1/|M_j^-|)， （2）

因为 o_k(d_i) ∈ {0, 1} 意味着 Var(o_k(d_i)) ≤ 1/4。每个单元格的方差随着掩码数量增加而减小；每个任务掩码通过平均最近邻开发任务（公式 (6) (https://arxiv.org/html/2606.15390#S2.E6)）进一步减少了有效噪声。所有技能无一例外地参与归因；基于前缀的保护仅适用于下游掩码阶段（§2.3 (https://arxiv.org/html/2606.15390#S2.SS3)）。具体的超参数选择和统计验证在 §3 (https://arxiv.org/html/2606.15390#S3) 中报告。

行统计量。给定完整矩阵 C，我们从每一行中推导出两个摘要统计量，它们驱动所有后续筛选决策。技能 s_j 的*全局因果分数*是行均值：

Ĉ(j) = (1/M) ∑_{i=1}^M C[j, i]， （3）

捕获 s_j 在所有开发任务上的平均边际贡献。技能 s_j 的*因果异质性*是行范围：

H(s_j) = max_i C[j, i] − min_i C[j, i]， （4）

衡量技能效果在不同任务之间的变化程度。

###### 定义 1（因果异质技能）。

一个技能 s_j 在阈值 τ 下是*因果异质的*，如果 H(s_j) ≥ τ，即其因果效应在开发任务之间反转或显着变化。

一个具有高 H(s_j) 但近乎零 Ĉ(j) 的技能是最危险的：它在某些任务上有帮助，在另一些任务上有害，但其正面和负面效果在总体上相互抵消，使得任何仅通过全局分数评估技能的筛选方法无法发现它。完整归因每个基础模型只计算一次，因为技能库的因果结构取决于解释它的模型。

### 2.2 离线库重构

归因矩阵 C 揭示了哪些技能有问题，但仅有测量并不能修复库。一个异质技能在某些任务上有帮助而在另一些任务上有害，不能简单地移除，否则会失去其有益效果。相反，必须重构库，以便每个技能的适用条件变得明确。行统计量 Ĉ(j) 和 H(s_j) 将技能划分为三个区域：普遍有益（Ĉ(j) 为正，H(s_j) 小）、可忽略（|Ĉ(j)| 小，H(s_j) 小）和因果异质（H(s_j) ≥ τ_split）。我们依次应用三个操作，分别针对每个区域：*拆分*将异质技能解析为条件变体，*淘汰*移除可忽略的技能，*合并*去重由拆分引入的近乎相同的技能。选择此顺序是为了防止信息丢失。

步骤 1：拆分。对于每个 H(s_j) ≥ τ_split 的技能 s_j，我们使用基础 LLM 将 s_j 重写为两个条件变体，每个变体带有一个明确的触发条件，指明其应何时适用。重写受因果分数向量 (C[j,1], ..., C[j,M]) 指导：一个变体针对技能有帮助的任务，另一个针对技能有害的任务。每对重写后的技能必须通过一个*开发集门控*：重构后的库在所有 M 个归因任务上的通过率必须 ≥ 原始库。如果没有通过，则保留原始技能。拆分首先进行，因为一个因果异质技能有 Ĉ(j) ≈ 0（正面和负面效果抵消），如果淘汰先运行，它会被错误地淘汰。最多处理 τ_max_split 个候选；这是 LLM 判断重新进入筛选的唯一一点，范围有限且经过实证验证。

步骤 2：淘汰。一旦异质技能被解决，淘汰目标就是剩余的低信号技能。任何满足 |Ĉ(j)| < τ_retire 的技能都被移除。

步骤 3：合并。拆分可能会引入近乎重复的变体。对剩余技能进行嵌入；超过余弦相似度 τ_merge 的成对技能被聚类，每个簇中得分（按 Ĉ）最高的成员被保留。合并之所以最后运行，正是因为它必须操作已经过拆分和淘汰塑造的库。

### 2.3 每个任务的因果掩码

离线重构产生一个单一的修复库 S′，但静态库无法涵盖测试条件的全部多样性。现有技能应用方法的核心局限性，无论是

并非所有技能都有帮助：衡量与修复智能体知识

相似文章

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

技能并非通用：面向LLM智能体的模型感知技能对齐

SkillMaster：迈向大语言模型智能体的自主技能掌握

SkillJuror: 衡量技能组织如何改变运行时行为

LLM智能体系统中技能的规模化定律

提交意见反馈