技能并非通用:面向LLM智能体的模型感知技能对齐

arXiv cs.CL 论文

摘要

本文提出MASA框架,该框架在不修改模型权重的情况下,通过分层进化和模型条件重写器将技能适配到每个LLM骨干网络,相比基线方法最高提升25.8个点。

arXiv:2605.30723v1 公告类型:新 摘要:LLM智能体越来越多地检索外部策划的技能——即决策时检索的程序性指令——以提升在长时交互任务上的表现。现有技能库通常被视为与模型无关,在不同容量和行为差异巨大的骨干网络之间复用相同的技能表述。然而,我们在多个模型规模上进行的受控实验表明,技能的有效性强烈依赖于模型:对一个骨干网络有益的技能可能对另一个造成损害。受此观察启发,我们提出MASA(模型感知技能对齐)框架,该框架在不修改智能体权重的情况下将技能适配到每个目标骨干网络。MASA分为两个阶段:(1) 分层技能进化流程,通过爬山算法和UCB驱动的树搜索迭代重写通用技能和任务特定技能,并依据环境反馈和模型能力画像进行引导;(2) 轻量级模型条件技能重写器,在进化轨迹上训练,通过单次前向传播复现适配过程。在三个交互环境和四个骨干网络上的实验表明,MASA始终取得最佳整体性能,相比最强基线最高提升25.8个点。经过学习的重写器还能在不额外搜索的情况下泛化到未见任务和环境,以极低的推理成本持续超越规模更大的教师LLM。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:28

# 技能并非通用:面向LLM Agent的模型感知技能对齐  
来源:https://arxiv.org/html/2605.30723  

## ![[Uncaptioned image]](https://arxiv.org/html/2605.30723v1/asset/logo.png)技能并非通用:面向LLM Agent的模型感知技能对齐  
Jianxiang Yu, Jiapeng Zhu, Bochen Lin, Qier Cui, Zichen Ding, Xiang Li  
华东师范大学,上海,中国  
[email protected]  

###### 摘要  
LLM Agent 越来越多地检索外部精选的“技能”(在决策时检索的程序性指令),以提升在长周期交互任务上的表现。现有的技能库通常被视为模型无关的,对能力与行为差异显著的不同骨干模型重复使用相同的技能表述。然而,我们在多个模型规模上的受控实验表明,技能的有效性高度依赖于模型:对某个骨干模型有益的技能可能对另一个造成损害。基于这一观察,我们提出 MASA(模型感知技能对齐),一个无需修改 Agent 权重即可为每个目标骨干模型适配技能的框架。MASA 分两个阶段运行:(1)一个分层技能演化流水线,利用爬山法和 UCB 驱动的树搜索,在环境反馈和模型能力档案的指导下迭代重写通用技能与任务特定技能;(2)一个轻量级的模型条件技能重写器,在演化轨迹上训练,以单次前向传播复现此适配。在三个交互环境和四个骨干模型上的实验表明,MASA 始终取得最佳整体性能,相比最强基线提升高达 25.8 个百分点。训练好的重写器能够泛化到未见任务和环境,无需额外搜索,以极低的推理成本持续超越规模大得多的教师 LLM。我们的代码已公开¹。  

¹https://github.com/jianxiangyu/MASA_  

![[Uncaptioned image]](https://arxiv.org/html/2605.30723v1/asset/logo.png)  
# 技能并非通用:面向LLM Agent的模型感知技能对齐  
Jianxiang Yu, Jiapeng Zhu, Bochen Lin, Qier Cui, Zichen Ding, Xiang Li††感谢通讯作者  
华东师范大学,上海,中国  
[email protected]  

## 1 引言  

参见图注  

图 1:技能粒度并非通用。ALFWorld 成功率(%)在无技能控制组和三种粒度水平(简洁、适度、详细)下对四个 Qwen3 骨干模型的表现。最优水平在不同骨干模型间存在差异。  

LLM Agent 越来越多地解决长周期交互任务,包括网页导航(Ouyang 等,2026)、具身控制(Lu 等,2026)以及工具使用(Schick 等,2023;Jiang 等,2026;Wang 等,2024a;Hsiao 等,2025)。一种无需修改模型权重即可引导这些 Agent 的常见方法是从外部库中检索短篇程序性知识(我们称之为“技能”)(Wang 等,2023, 2024b, 2024c;Chen 等,2024;Zhao 等,2024;Ma 等,2026)。现有的技能库系统,无论是手工制作的(Zhu 等,2023)还是从 Agent 轨迹中蒸馏得到的(Zhao 等,2024;Chen 等,2024;Xia 等,2026;Wang 等,2025a),通常构建一个单一的共享库,并在不同的 LLM 骨干模型间重复使用。在实践中,部署约束(如延迟预算、推理成本和硬件可用性)意味着真实的 Agent 系统必须使用规模差异巨大的骨干模型,而非仅仅依赖最强可用的模型(Yao 等,2025;Zheng 等,2025)。这种部署异构性给技能库设计提出了一个关键问题:单一技能表述是否能同样好地服务于能力差异显著的模型?为了探究这一点,我们在 ALFWorld(Shridhar 等,2020)上进行了实验(完整设置与分析见 §2):保持技能库的原则固定,仅改变其粒度,并在四个 Qwen3 骨干模型(4B–32B)(Yang 等,2025)上评估。如图 1 所示,最优粒度在不同模型间存在差异;事实上,提升某个骨干模型的技能可能主动降低另一个模型的表现。在 Gemma3 系列上的平行实验(附录 C.3)证实了同一模式在不同模型家族中成立,并且相同规模但不同家族的模型也偏好不同的技能表述。这一观察表明,技能库的有效性不仅取决于它编码了哪些知识,还取决于这些知识如何相对于目标模型的能力进行表达:当表达失配时,检索到的技能会分散注意力而非提供帮助。一个设计良好的技能库应放大其目标骨干模型的优势,释放通用、模型无关的技能无法解锁的能力。  

我们通过 MASA(模型感知技能对齐)实现这一目标,这是一个无需修改 Agent 权重即可将技能库的表述与每个目标骨干模型对齐的框架。MASA 将技能对齐视为一个由环境反馈驱动的分层搜索问题。它首先运行“分层模型条件技能演化”:一个更强的教师 LLM 在目标模型能力档案的指导下迭代重写技能,对通用技能应用爬山法,对任务特定技能应用 UCB 驱动的树搜索。为了在部署时消除昂贵的教师模型,发现的改写轨迹训练了一个轻量级的模型条件技能重写器,使其能在单次前向传播中适配技能,以数量级更低的成本超越教师模型。  

我们的主要贡献如下:  
- • 我们通过实验证明,不同模型需要不同的技能表述:对某个骨干模型有益的同一技能库可能主动降低另一个模型的表现。这一发现挑战了“一刀切”的假设,并推动了模型感知技能对齐的需求。  
- • 我们提出 MASA,一个将技能表述与每个目标骨干模型对齐的框架。它结合了迭代搜索以演化最优技能,以及一个轻量级重写器将不匹配的技能转换为模型适配的形式。  
- • 我们在三个不同环境和四个 Qwen3 骨干模型上评估 MASA,取得了最高的成功率,提升高达 +25.8 个百分点。MASA 重写器进一步以单次前向传播泛化到未见任务和环境,以极低的成本优于规模大得多的教师 LLM。  

参见图注  

图 2:MASA 的整体框架。  

## 2 初步研究:单一技能库并非通用  

在介绍 MASA 之前,我们提出一个问题:单一技能库是否平等地服务于所有模型规模。为了隔离技能形式(skill form)与技能内容的影响,我们保持底层“原则”固定,仅改变其文本表达的“粒度”。  

### 2.1 设置  

我们使用 ALFWorld(Shridhar 等,2020),一个基于文本的家务任务套件,涵盖六种任务类型,并在验证集上评估。我们比较四个 Qwen3 骨干模型(4B/8B/14B/32B)(Yang 等,2025),它们主要区别在于能力,同时共享相同的架构和训练机制。我们设计了一个无技能控制组和三个技能粒度水平,这些水平编码相同的行为原则,但在表示深度上有所不同。遵循先前工作,我们采用 Xia 等(2026)的技能库作为“适度”变体,并通过受控改写构建“简洁”和“详细”变体,以保持底层原则不变的同时调整粒度(并排示例见附录 C.1 表 4)。所有三个级别使用相同的检索流水线,确保观察到的差异仅归因于粒度。  

### 2.2 发现  

图 1 报告了 ALFWorld 的总体成功率。  

**发现 1:最优技能形式依赖于模型,且失配可能造成损害。** 没有任何一个粒度水平对所有模型一致最优。Qwen3-4B 在“适度”技能下表现最佳,而 Qwen3-14B 和 Qwen3-32B 在“详细”技能下取得最高分。值得注意的是,Qwen3-8B 在“无技能”条件下表现最佳(32.1%),所有三种技能变体均降低了性能。重要的是,这并不意味着技能与 Qwen3-8B 本质上不相容。轨迹检查显示,在没有外部引导的情况下,Qwen3-8B 经常遵循简短有效的动作链直接解决问题。而失配的技能引入了程序性推理模式,覆盖了这些天然的简洁动作链,导致模型过度探索或不必要地推敲。这表明技能的有效性不仅取决于其内容,还取决于其表达是否与模型默认的问题解决策略相容。  

**发现 2:粒度-性能关系是非单调的,无法用简单启发式解释。** 技能粒度应如何随模型能力缩放尚不清晰:较小的模型可能因上下文利用能力有限而受益于简洁的指导,但也可能因推理能力较弱而需要更明确的程序性监督。我们的结果表明,这两个方向都不一致成立。Qwen3-32B 在“详细”下比 Qwen3-14B 低 4.6 分,尽管模型规模翻倍,这反转了通常的缩放趋势。对于 Qwen3-4B,性能在两个方向上都未单调提升:“适度”优于“简洁”和“详细”,表明最优解位于一个中间水平,无法通过简单地“增加更多细节”或“精简到最少”达到。这种复杂性需要基于搜索而非基于规则的技能适配。  

**发现 3:性能在不同任务类型间急剧变化。** 按任务分解(附录 C.2)显示,在给定的模型-粒度配对中,不同任务类型间的成功率差异可超过 60 个百分点——这一差距远超任何单个任务在不同粒度水平间的差异。例如,Qwen3-14B 搭配“简洁”技能在“Pick”上得分为 74.2%,但在“Cool”上仅为 13.7%。某些任务类型无论模型规模如何都受益于详细技能,而其他任务类型则不敏感甚至受损。这种异质性表明,仅靠全局优化是不够的——技能对齐还必须在任务类型层面运作,以满足每种任务类型的独特需求。在 Gemma3 系列(4B/12B/27B)上的平行实验揭示了相同的规模依赖趋势(附录 C.3),表明该现象跨模型家族具有泛化性。  

**启示。** 综合三个发现,提出了具体的设计要求:  
1. (i) **模型条件化:** 最优技能形式因骨干模型而异,因此对齐必须显式地以目标模型的能力为条件(发现 1)。  
2. (ii) **基于搜索而非启发式:** 技能粒度与性能之间的关系是非单调且模型特定的,排除了简单的对齐规则(发现 2)。  
3. (iii) **任务类型特定:** 在同一骨干模型内,不同任务类型对相同技能的反应不同,除了全局优化外还需要按任务类型进行适配(发现 3)。  

我们进一步指出,我们的受控研究仅变化了技能形式的一个维度(文本粒度),同时保持内容固定。在实践中,失配还可能源于决策策略、框架或格式的差异,这表明一个完整的解决方案必须执行开放式的、模型感知的改写。MASA 正是为满足这三个要求而设计的。  

## 3 方法:MASA  

我们提出 MASA,一个将技能演化“条件化”于目标骨干模型能力档案的框架,从而生成专门适配每个模型的技能库,而非依赖通用的、模型无关的表述。MASA 包含两个互补组件:一个搜索时技能演化流水线(第 3.2 节),在结构化“模型卡”提供的显式能力条件下演化技能;以及一个部署时技能重写器(第 3.3 节),学习这种模型条件改写策略,并在单次前向传播中适配新技能。框架概述如图 2 所示。  

### 3.1 问题形式化与技能库  

#### Agent 设置  
一个冻结的 LLM Agent F 与环境 E 交互。在每个时间步 t,Agent 接收观测 o_t,从技能库 S 中检索相关技能,并产生动作 a_t:  
a_t ~ F(· | τ_R_i > R^* then  
14: S_F^{G*} ← S_F^{Gi}; R^* ← R_i {接受}  
15: end if  
16: if 连续 p 次迭代无改进 then  
17: break  
18: end if  
19: end for  
20: return S_F^{G*}  

**算法 2 阶段 2:任务特定技能搜索(按类型树搜索)**  
0: 目标模型 F, 模型卡 M_F, 教师 T, 固定通用技能 S_F^{G*}, 初始任务特定技能 {S_F^{Tc0}}_{c∈C}, 迭代次数 J  
0: 优化后的任务特定技能 {S_F^{Tc*}}_{c∈C}  
1: 对每个任务类型 c ∈ C 并行执行  
2: 以 S_F^{Tc0} 初始化树根节点  
3: 对 j=1 到 J 循环  
4: // 选择  
5: n ← UCB1Select(root) {通过公式 7 选择叶子节点}  
6: // 扩展  
7: F ← CollectFailures(F, S_F^{G*}, S_{F,n}^{Tc}, c)  
8: attr ← T.Analyze(F) {失败归因}  
9: S_F'^{Tc} ← T.Rewrite(S_{F,n}^{Tc}, attr, M_F)  
10: 将 S_F'^{Tc} 添加为节点 n 的子节点  
11: // 评估  
12: R' ← Eval(F, S_F^{G*}, S_F'^{Tc}, c)  
13: if R' > R_n^* then  
14: 更新 Rn^* ← R'; 更新节点 n 的值  
15: end if  
16: // 回溯  
17: 将 R' 反向传播到路径上的所有祖先节点  
18: end for  
19: end for  
20: return {S_F^{Tc*}}_{c∈C}

相似文章

LLM智能体系统中技能的规模化定律

arXiv cs.CL

本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。