工具更新并非工具收益:自进化LLM智能体中进化能力的解耦
摘要
本文分析了自进化LLM智能体中的两种能力:工具更新能力和工具收益能力。研究发现工具更新能力在不同基础能力层级间持平,而工具收益能力则呈现非单调性,其中中等层级模型收益最大。
arXiv:2605.30621v1 公告类型:新论文
摘要:LLM智能体越来越被部署为围绕可编辑外部工具构建的系统,这些工具包括提示、技能、记忆和工具,它们在不改变模型参数的情况下塑造任务执行。工具自进化通过根据执行证据更新这些工具来适应此类智能体。然而,目前尚不清楚模型在任务求解中的基础能力是否能预测其在工具自进化中的能力:哪些模型能产生有用的工具更新,哪些模型能真正从中受益?我们分析了两种工具自进化能力:(i)工具更新能力,即根据执行证据产生有用的持久工具更新的能力;(ii)工具收益能力,即在任务求解过程中从更新后的工具中受益的能力。我们的分析揭示了两个发现。首先,工具更新能力在基础能力上持平:不同能力层级的模型产生的工具更新带来的增益惊人地相似;甚至Qwen3.5-9B的更新带来的增益也与Claude Opus~4.6相当。其次,工具收益能力在基础能力上呈现非单调性:弱层级模型从更新工具中获益甚少,中等层级模型获益最大,而强层级模型获益低于中等层级。我们将弱层级的低增益归因于两种失败模式:弱层级模型可能无法激活相关工具制品,或者激活了但无法忠实地遵循它们。这些发现建议将能力预算投入到任务求解智能体而非进化器上,并在智能体训练中针对工具调用和长程指令遵循进行优化。我们的源代码公开在 https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution。
查看缓存全文
缓存时间: 2026/06/01 09:23
# 装备更新不等于装备收益:解构自我进化LLM智能体的进化能力
来源:https://arxiv.org/html/2605.30621
Minhua Lin¹,Juncheng Wu²¹¹footnotemark:1,Zijun Wang²,Zhan Shi³,Yisi Sang³,Bing He³,Zewen Liu⁴,Tianxin Wei⁵,Zongyu Wu¹,Zhiwei Zhang¹,Dakuo Wang⁶,Xiang Zhang¹,Benoit Dumoulin³,Cihang Xie²,Yuyin Zhou²,Suhang Wang¹,Hanqing Lu³
¹宾夕法尼亚州立大学 ²加州大学圣克鲁兹分校 ³亚马逊 ⁴埃默里大学 ⁵伊利诺伊大学厄巴纳-香槟分校 ⁶东北大学
{mfl5681,szw494}@psu.edu; {jwu418}@ucsc.edu; {luhanqin}@amazon.com
###### 摘要
LLM智能体越来越被部署为基于可编辑外部装备(包括提示、技能、记忆和工具)构建的系统,这些装备在不改变模型参数的情况下塑造任务执行。装备自我进化通过基于执行证据更新这些装备来适应此类智能体。然而,目前尚不清楚模型在任务解决中的*基础能力*是否预测其在装备自我进化中的能力:哪些模型能产生有用的装备更新,哪些模型能真正从中受益?我们分析了两种装备自我进化能力:(i)*装备更新*,即基于执行证据产生有用持久装备更新的能力;(ii)*装备收益*,即在任务解决过程中从更新后的装备中受益的能力。我们的分析揭示了两个发现。第一,*装备更新在基础能力上是平坦的*:不同能力层级的模型产生的装备更新带来的增益惊人地相似;即使是 Qwen3.5-9B 的更新也能带来与 Claude Opus 4.6 相当的增益。第二,*装备收益在基础能力上是非单调的*:弱层级模型从更新装备中获益甚微,中层级模型获益最大,而强层级模型获益少于中层级。我们将弱层级增益低归因于两种失败模式:弱层级模型可能无法激活相关装备工件,或者激活了但未能忠实遵循这些工件。这些发现表明,应将能力预算投入任务解决智能体而非进化器,并在智能体训练中针对装备调用和长程指令遵循进行优化。我们的源代码在此公开提供 (https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution)。
装备更新不等于装备收益:解构自我进化LLM智能体的进化能力
Minhua Lin¹††Both authors contributed equally to this paper.,Juncheng Wu²¹¹footnotemark:1,Zijun Wang²,Zhan Shi³,Yisi Sang³,Bing He³,Zewen Liu⁴,Tianxin Wei⁵,Zongyu Wu¹,Zhiwei Zhang¹,Dakuo Wang⁶,Xiang Zhang¹,Benoit Dumoulin³,Cihang Xie²,Yuyin Zhou²,Suhang Wang¹,Hanqing Lu³
¹宾夕法尼亚州立大学 ²加州大学圣克鲁兹分校 ³亚马逊 ⁴埃默里大学 ⁵伊利诺伊大学厄巴纳-香槟分校 ⁶东北大学
{mfl5681,szw494}@psu.edu; {jwu418}@ucsc.edu; {luhanqin}@amazon.com
## 1 引言
大型语言模型 (LLMs) Radford et al. (2018); Touvron et al. (2023) 已成为语言理解 Hendrycks et al. (2020)、推理 Wang et al. (2025) 和任务解决 Zhou et al. (2025) 的通用基础。它们越来越多地驱动着与外部环境交互、调用工具、操作软件接口并完成长程任务的*智能体系统* Yang et al. (2024b); Merrill et al. (2026)。在这些设置中,系统行为不仅取决于底层模型,还取决于外部*智能体装备*:提示 Wei et al. (2022)、技能 Xia et al. (2026)、记忆 Yan et al. (2025)、工具 Qin et al. (2024) 等,它们塑造了模型如何观察、推理、行动以及从错误中恢复。改进智能体系统越来越多地意味着不仅要精炼基础模型,还要精炼其周围的可编辑装备。
图 1:装备自我进化概述。
![[未标注图片]](https://arxiv.org/html/2605.30621v1/x2.png)
图 2:我们的发现概述。
(i) *装备更新在基础能力上是平坦的*。不同能力层级的模型产生的装备更新带来相似的增益。
(ii) *装备收益在基础能力上是非单调的*。中层级模型收益最大,而弱层级模型由于装备激活和遵循失败而收益甚微。
在当前的实践中,装备通常是手工设计的。然而,这种手动设计在部署时的环境中是脆弱的:任务分布发生变化,边缘情况出现,有用的过程只有在系统与真实任务交互后才会被发现。自然的应对方式是从执行证据中自动更新装备:失败、反馈、轨迹和成功的过程可以被写回装备并在未来任务中重用。我们将这种设置称为*装备进化*(图 1):模型权重保持不变,而外部智能体装备随时间修订。最近的自我进化智能体方法 Madaan et al. (2023); Wu et al. (2025); Agrawal et al. (2026); Xia et al. (2026); Lin et al. (2026b) 在不同装备组件上追求这种方法,并显示出相对于非进化基线的最终任务改进。在这些工作中,装备更新通常由 LLM 从执行证据生成;我们将这种更新角色称为*进化器*。
尽管取得了快速进展,但这些方法的评估仍然提出了一个端到端的问题:自我进化方法是否有效提高了智能体性能?这个问题很重要,但它隐藏了改进的来源。增益可能来自*进化器*产生更高质量的装备更新,或者来自任务解决智能体在任务解决中更有效地使用更新后的装备。端到端的分数无法解构这些贡献,留下两个实际问题:*哪些模型能产生有用的装备更新,哪些模型能从中获益最多?*
为了回答这些问题,我们分析了模型在装备自我进化中运用的两种进化能力,跨越三个智能体基准和七个 LLM:*装备更新*,即从执行证据中产生有用装备更新的能力;以及*装备收益*,即在任务解决中从更新装备中获益的能力。模型作为进化器运用装备更新能力,作为任务解决智能体运用装备收益能力。我们通过将七个 LLM(涵盖开源和闭源家族,跨越能力层级)配对作为智能体和进化器,在三个代表性智能体基准上进行全面实验。我们的分析揭示了装备进化能力与*基础能力*(即模型在没有装备进化的情况下的任务解决能力,图 2)之间的两种系统性解耦。
第一,**装备更新在基础能力上是平坦的**。当固定任务解决智能体并改变进化器模型时,来自不同能力层级的模型产生的装备更新带来惊人相似的增益,并且没有进化器在所有基底上占主导地位。我们的案例研究进一步表明,即使是 Qwen3.5-9B 进化器产生的装备更新,其下游增益也能与 Claude Opus 4.6 匹敌,尽管基础能力差距很大。
第二,**装备收益在基础能力层级上是非单调的**。中层模型(例如 GPT-OSS-120B)从更新装备中受益最多,而强层模型(例如 Claude Opus 4.6)达到性能上限,受益较少。然而,弱层端不能用同样的上限论点解释:鉴于它们与自身基础能力之间最大的提升空间,像 Qwen3-32B 这样的模型按理应获益最多,但它们却受益最少。我们的深入分析识别出两种失败模式,解释了这种弱层差距:(i) *装备激活失败*:弱模型在任务解决中常常*无法调用*相关装备工件(例如技能);(ii) *装备遵循失败*:即使装备已加载,弱模型由于在长程任务中指令遵循能力弱而*无法遵循*它。
这些发现转化为装备自我进化系统的设计指导。*(i) 将能力预算分配给任务解决智能体,而非进化器*:进化器之间的装备更新差距在任何基准上最多为 3.1 个百分点,因此扩大进化器规模收益有限;进化后性能随任务解决智能体的变化远大于随进化器的变化。*(ii) 将装备调用纳入智能体训练*:弱层模型常常完全无法加载装备(例如,Qwen3-32B 的加载率约为 25%,而强模型约为 96%),因此装备调用应被视为一个一级学习技能。*(iii) 加强长程指令遵循*:即使加载了装备,弱层的遵循度在整个轨迹中的衰减速度比强模型陡峭四倍以上,使得持续指令遵循成为下游智能体训练的第二个关键目标。
## 2 相关工作
**装备工程。** LLM 智能体结合一个冻结的主干与一个外部*装备*,该装备调节推理、工具使用、记忆访问和环境交互 Yao et al. (2022); Yang et al. (2024b); Ning et al. (2026)。最近的工作将装备视为一个一级设计对象,主要区别在于暴露给智能体的工件类型。*提示和指令*提供自然语言指导 Zhou et al. (2022); Pan et al. (2026);*工具*暴露外部服务并定义智能体如何发现、调用和验证它们 Hou et al. (2025); Qin et al. (2024); Liu et al. (2025); Lin et al. (2026a);*记忆*存储先前的观察、事实和策略以供后续检索 Ouyang et al. (2025); Xu et al. (2026); Fang et al. (2026);*技能*将可重用过程打包成可调用模块 Li et al. (2026b); Liu et al. (2026);*代码*将装备本身视为可执行源代码,可由智能体提议者优化 Lee et al. (2026)。这些工作将装备确立为可编辑的智能体状态。我们的工作将焦点从装备表示转移到模型在更新和受益于装备方面的能力。更多细节见附录 A.1。
**LLM 智能体的自我进化。** 除了装备*包含什么*,一个互补的研究方向询问它如何从执行经验中*更新*。早期系统通过回合级或任务级语言反馈来适应智能体:口头自我反思 Shinn et al. (2023) 和迭代自我反馈 Madaan et al. (2023) 通过将经验教训反馈到上下文中来改进后续尝试。最近的方法将持久装备组件作为自我进化的单元,从执行轨迹中更新提示 Agarwal et al. (2024); Zhang et al. (2025b); Agrawal et al. (2026)、记忆 Wu et al. (2025); Zhang et al. (2025a); Lin et al. (2026c)、技能 Xia et al. (2026); Alzubi et al. (2026); Yang et al. (2026) 或工具 Chen et al. (2025); Li et al. (2026a)。总的来说,这些方法表明,将执行经验写回装备可以提高下游任务性能。然而,这一方向中的评估通常报告一个更新过程与一个目标智能体在一个基底上的端到端增益 Li et al. (2026b); Jiang et al. (2026); Wei et al. (2025)。此类分数混淆了三个改进来源:智能体的基础能力、进化器的*装备更新*能力以及智能体的*装备收益*能力。我们的工作通过独立变化任务解决智能体和进化器、分别测量装备更新和装备收益、并测试任一能力是否跟踪基础能力,对这些方法进行了补充分析。更多细节见附录 A.2。
## 3 装备进化能力
为了探索装备自我进化中的进化能力,我们考虑装备自我进化,它通过在执行任务期间更新固定模型周围的外部装备来适应 LLM 智能体:智能体尝试一系列任务,并基于智能体的执行证据更新装备。在本节中,我们形式化装备进化协议并定义两种进化能力:*装备更新*,即产生有用装备更新的能力;以及*装备收益*,即从更新装备中受益的能力。
### 3.1 预备知识:装备状态与进化器
**智能体装备。** 我们使用*智能体装备*来表示 LLM 部署用于任务执行的外部非参数化上下文和基础设施 Yao et al. (2022); Ning et al. (2026); Lee et al. (2026)。形式上,在进化步骤 \(t\) 时,LLM 智能体定义为:
\[ A_t = (f, H_t), \]
其中 \(f\) 是智能体的模型主干,\(H_t\) 是步骤 \(t\) 后的装备状态。遵循常见的装备自我进化设置 Zhou et al. (2026); Lin et al. (2026b),我们保持 \(f\) 固定,仅更新 \(H_t\) 的可编辑组件(例如提示、技能、记忆),并固定其他组件如工具接口和执行策略。
**进化器。** *进化器*是将智能体的执行证据转换为装备更新的更新程序,最近的自我进化智能体系统 Yang et al. (2024a); Yuksekgonul et al. (2024); Xia et al. (2026); Agrawal et al. (2026) 越来越多地将其实例化。相似文章
不是能力问题:LLM智能体层级间的控制敏感度是非单调的
本文通过实证测试了“更结构化的控制(harness)能普遍提高LLM智能体可靠性”这一常见假设,发现不同模型层级间存在非单调关系。它引入了HEAT-24基准,并揭示了严格的控制可能会损害前沿聊天模型,但有利于推理模型。
@Xudong07452910: 这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。 它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。 现在很多 Ag…
该帖子讨论了一篇论文,指出Agent系统自我进化中,更新Harness(写有用更新)与从更新中受益(后续任务真正使用)是两种不同能力,后者才是关键,弱模型往往不会使用规则。
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。
HarnessForge: 联合执行框架与策略演化用于自适应智能体系统
HarnessForge 提出一种用于演化LLM智能体系统的元自适应框架,通过联合优化执行框架与推理策略,在五个基准测试上对Qwen3骨干模型实现持续改进。
面向执行轨迹的推理时对齐框架
本文研究LLM智能体的框架设计,将其分解为任务拆解和引导执行,并展示了更精细的框架并非一致更好;它揭示了失败模式,并提出了部分框架的有效性。