MIND-Skill:通过多智能体归纳与演绎实现质量保证的技能生成
摘要
MIND-Skill 是本研究论文提出的一种新框架,它利用基于 TextGrad 优化的多智能体归纳和演绎,自动化生成高质量、可复用的智能体技能,并提供质量保证。
arXiv:2605.08670v1 发布类型:新文章
摘要:由大型语言模型(LLM)驱动的 AI 智能体已成为自主解决问题的一个有前景的范式,但在处理需要特定领域程序性知识的复杂多步骤现实世界任务时,它们仍然面临困难。可复用的智能体技能封装了成功的解题策略,通过使智能体能够利用既往经验,提供了一种自然的解决方案。然而,策划这些技能在很大程度上仍然是一项人工工作,需要人类专家将丰富的领域知识提炼为可操作的指南。在这项工作中,我们提出了用于技能的多智能体归纳与演绎框架(MIND-Skill),该框架能够从成功轨迹中自动归纳出具有鲁棒质量保证的通用技能。MIND-Skill 包含一个归纳智能体,负责从成功轨迹中抽象出可复用的技能;以及一个演绎智能体,旨在遵循归纳出的技能来重构轨迹。为了保证生成技能的质量,我们引入了重建损失(比较输入轨迹与重构轨迹)、结果损失(确保重构轨迹的正确性)以及评分标准损失(根据预定义标准评估文档质量并规范生成技能的抽象层级)。这些文本损失通过 TextGrad 联合优化,生成的技能在优化过程中未见过的保留任务上进行评估。在 AppWorld 和 BFCL-v3 上的实验表明,MIND-Skill 始终优于当前的其他技能生成方法。
查看缓存全文
缓存时间: 2026/05/12 07:19
# MIND-Skill:通过多智能体归纳与演绎实现质量保证的技能生成
来源: https://arxiv.org/html/2605.08670
Yixuan Li¹, Mingshu Cai²¹¹footnotemark:1, Ziyang Xiao³, Wanyuan Wang⁴, Yanchen Deng¹, Bo An¹
1南洋理工大学 (Nanyang Technological University)
2早稻田大学 (Waseda University)
3浙江大学 (Zhejiang University)
4东南大学 (Southeast University)
###### 摘要
由大语言模型(LLM)驱动的 AI 智能体已成为自主问题解决的一种有前景的范式,但它们在处理需要领域特定程序性知识的复杂、多步现实世界任务时仍面临挑战。可复用的智能体技能封装了成功的解题策略,通过使智能体能够基于以往经验进行构建,提供了一种自然的解决方案。然而,策划此类技能在很大程度上仍然是一项手动工作,需要人类专家将丰富的领域知识提炼为可操作的指南。在这项工作中,我们提出了 **MIND-Skill**(**M**ulti-**a**gent **I**nduction and **D**eduction for **Skill**s),这是一个能够从成功轨迹中自动归纳出具有稳健质量保证的泛化技能框架。MIND-Skill 包含一个归纳智能体,负责从成功轨迹中抽象出可复用的技能;以及一个演绎智能体,旨在通过遵循归纳出的技能来重建轨迹。为了保证生成技能的质量,我们引入了重建损失(比较输入轨迹与重建轨迹)、结果损失(确保重建轨迹的正确性)以及标准损失(根据预定义标准评估文档质量并正则化生成技能的抽象级别)。这些文本损失通过 TextGrad 联合优化,生成的技能在优化期间未见的保留任务上进行评估。在 AppWorld 和 BFCL-v3 上的实验表明,MIND-Skill consistently 优于并行的技能生成方法。
## 1 引言
大语言模型(LLMs)在各种具有挑战性的推理任务中表现出卓越的性能,包括定理证明 [Yanget al.,2023 (https://arxiv.org/html/2605.08670#bib.bib21); Hubertet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib20)]、代码生成 [Lyuet al.,2025 (https://arxiv.org/html/2605.08670#bib.bib22); Wanget al.,2025a (https://arxiv.org/html/2605.08670#bib.bib23)] 和科学发现 [Novikovet al.,2025 (https://arxiv.org/html/2605.08670#bib.bib24)]。配备工具、记忆和框架支撑后,基于 LLM 的 AI 智能体 [Steinberger and OpenClaw Community,2026 (https://arxiv.org/html/2605.08670#bib.bib25); Nous Research,2026 (https://arxiv.org/html/2605.08670#bib.bib26); Anthropic,2025a (https://arxiv.org/html/2605.08670#bib.bib27),2026 (https://arxiv.org/html/2605.08670#bib.bib28)] 已成为许多开放场景下自主问题解决的一种有前景的范式。尽管 LLM 从预训练中继承了广泛的陈述性知识,但 AI 智能体在处理需要领域特定**程序性知识**的复杂、长视界任务时仍然困难重重,例如使用 API、进行多步工具调用以及根据工作流反馈调整行动 [Trivediet al.,2024 (https://arxiv.org/html/2605.08670#bib.bib1); Patilet al.,2025 (https://arxiv.org/html/2605.08670#bib.bib29)]。
**智能体技能** [Anthropic,2025b (https://arxiv.org/html/2026#bib.bib6)] 将成功的解题策略和标准操作程序封装为 Markdown 文档和相关脚本的集合,通过使智能体能够基于以往的领域经验进行构建,提供了一个优雅的解决方案 [Tagkopouloset al.,2025 (https://arxiv.org/html/2605.08670#bib.bib30); Liet al.,2026a (https://arxiv.org/html/2605.08670#bib.bib31)]。然而,策划高质量技能在很大程度上仍然是一项手动工作,需要广泛的人类专业知识将丰富的领域知识提炼为可操作的指南 [Liet al.,2026b (https://arxiv.org/html/2605.08670#bib.bib14)]。
最近的研究尝试从不同来源的知识自动生成技能。**零样本技术** [Anthropic,2025c (https://arxiv.org/html/2605.08670#bib.bib32)] 通过激发 LLM 的先验知识,将任务描述或用户提示直接转化为技能,但其有效性仍然有限 [Liet al.,2026b (https://arxiv.org/html/2605.08670#bib.bib14)]。**轨迹蒸馏方法** [Niet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib12); Wanget al.,2026a (https://arxiv.org/html/2605.08670#bib.bib33); Tuet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib19)] 通常以离线方式将现有执行痕迹抽象为通用程序,从而为新任务推导可复用的技能。最后,**终身演化方法** [Nous Research,2026 (https://arxiv.org/html/2605.08670#bib.bib26); Xiaet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib13); Wanget al.,2025b (https://arxiv.org/html/2605.08670#bib.bib9); Alzubiet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib11)] 根据智能体积累的体验和记忆不断提炼和细化技能。
不幸的是,现有技能生成方法的一个关键局限性是**缺乏质量保证**。
* **首先**,许多技术直接从任务规范、轨迹或经验生成技能,缺乏原则性的闭环管道来根据执行结果明确验证、纠正和完善技能。
* **其次**,生成技能的文档质量往往被忽视。技能旨在成为可复用、可移植的工件,可以在智能体、模型甚至人类从业者之间共享,但当前方法很少评估生成的文档是否符合技术写作的既定标准,例如逻辑流程和故障排除指南。
* **第三**,对于轨迹蒸馏方法,抽象过程的忠实度从未得到验证。将执行痕迹提炼为可复用技能必然涉及有损压缩,这可能导致过度泛化。然而,目前没有建立的机制来保证生成的技能忠实地保留其源轨迹的基本方面,例如边缘情况处理和先决条件检查。
鉴于此,我们提出了 **MIND-Skill**,这是一种新颖的框架,能够从智能体的成功轨迹中合成具有质量保证的通用技能。与仅从痕迹合成技能的现有轨迹蒸馏方法不同,MIND-Skill 具备一个**归纳智能体**,从输入轨迹中推导技能,以及一个**演绎智能体**,通过主动遵循生成的技能来重建输入轨迹。因此,通过优化衡量输入轨迹与重建轨迹之间差异的**重建损失**,强制保证生成技能的忠实度。此外,我们引入了**结果损失**以强制重建轨迹的正确性,以及**标准损失**以根据预定义标准评估文档质量并正则化生成技能的抽象级别。这些文本损失通过 TextGrad [Yuksekgonulet al.,2025 (https://arxiv.org/html/2605.08670#bib.bib15)] 联合优化以产生高质量技能。
具体而言,我们做出以下贡献:
- 我们提出了 MIND-Skill,这是一个多智能体归纳与演绎框架,可从成功轨迹中自动合成通用技能。为了确保生成的技能携带所有关键程序性知识,我们保持演绎智能体冻结,使其在重建轨迹时除了归纳出的技能外不接受任何指导。
- 为了保证归纳技能的质量,我们提出了三种文本损失并通过 TextGrad 联合优化它们:衡量输入与重建轨迹之间差异的重建损失、强制执行正确性的结果损失,以及评估文档质量并正则化生成技能抽象级别的标准损失。
- 我们在 AppWorld [Trivediet al.,2024 (https://arxiv.org/html/2605.08670#bib.bib1)] 和 BFCL-v3 [Patilet al.,2025 (https://arxiv.org/html/2605.08670#bib.bib29)] 上评估了 MIND-Skill,并表明归纳出的技能提高了智能体在源任务和生成期间未见的保留任务上的性能。
## 2 相关工作
### 2.1 智能体技能
智能体技能将可复用的程序性知识封装到结构化文档中,这些文档可以在智能体、模型甚至人类从业者之间共享 [Anthropic,2025b (https://arxiv.org/html/2605.08670#bib.bib6)]。最近的综述系统化了技能生命周期,并通过其程序性和可复用性将技能与通用工具使用区分开来 [Jianget al.,2026 (https://arxiv.org/html/2605.08670#bib.bib35); Xu and Yan,2026 (https://arxiv.org/html/2605.08670#bib.bib36)]。Li et al. (2026a (https://arxiv.org/html/2605.08670#bib.bib31)) 表明,配备深入技能的单个智能体可以匹配多智能体框架的性能。也就是说,仅仅拥有技能并不能保证性能的提升。SkillsBench [Liet al.,2026b (https://arxiv.org/html/2605.08670#bib.bib14)] 显示,零样本生成的技能平均没有益处,而配备策划的人工作品技能的智能体 consistently 优于无技能基线。SWE-Skills-Bench [Hanet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib37)] 进一步证明,低质量技能会显著降低智能体性能,而不是提高性能。我们的工作直接通过结合技能归纳与基于演绎的验证来解决这一差距,为生成的技能提供闭环质量保证。
### 2.2 技能生成
#### 零样本生成
零样本方法通过激发 LLM 的参数化知识,直接从任务描述或用户提示生成技能 [Anthropic,2025c (https://arxiv.org/html/2605.08670#bib.bib32)],而不利用任何执行经验。虽然轻量级,但这些方法根本受到缺乏执行经验的限制,因此无法捕捉只有通过与环境逐步互动才能出现的领域特定程序性知识 [Liet al.,2026b (https://arxiv.org/html/2605.08670#bib.bib14)]。
#### 轨迹蒸馏
轨迹蒸馏方法将执行痕迹抽象为可复用的智能体技能。WebXSkill [Wanget al.,2026b (https://arxiv.org/html/2605.08670#bib.bib40)] 从合成智能体轨迹中提取可复用的动作子序列,并将其抽象为参数化技能,将可执行动作程序与步骤级自然语言指导配对。Trace2Skill [Niet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib12)] 调度并行子智能体提取轨迹教训,然后层次化地将它们整合到技能目录中。SkillX [Wanget al.,2026a (https://arxiv.org/html/2605.08670#bib.bib33)] 从滚动轨迹中提取三级技能层次结构,并通过合并和过滤进行细化。D2Skill [Tuet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib19)] 反思执行轨迹,以在任务和步骤粒度上生成技能。尽管这些方法在抽象策略上有所不同,但它们共享两个共同局限性:抽象过程的忠实度从未明确验证,且生成技能的文档质量在很大程度上不受控制。MIND-Skill 通过要求冻结的演绎智能体仅从生成的技能重建源轨迹,提供了明确的忠实度信号,并通过引入强制文档标准并正则化抽象级别的标准损失,解决了这两个差距。
#### 终身演化方法
终身方法从积累的经验中持续生成和细化技能。SAGE [Wanget al.,2025b (https://arxiv.org/html/2605.08670#bib.bib9)] 和 SkillRL [Xiaet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib13)] 应用强化学习根据环境反馈改进技能,但产生的技能与特定策略紧密耦合。EvoSkill [Alzubiet al.,2026 (https://arxiv.org/html/2605.08670#bib.bib11)] 从执行失败中提出新技能,并通过帕累托前沿选择保留它们。CoEvoSkills [Zhanget al.,2026a (https://arxiv.org/html/2605.08670#bib.bib39)] 与提供反馈而不需要地面真实测试的代理验证器共同演化技能生成器。ACE [Zhanget al.,2026b (https://arxiv.org/html/2605.08670#bib.bib8)] 通过生成-反思-策划循环将策略累积到不断演变的剧本中。虽然这些方法利用了环境反馈,但产生的信号受到智能体自身推理能力的混淆:能力强的智能体可能在技能不佳的情况下成功,而能力较弱的智能体可能在指导足够的情况下失败。MIND-Skill 通过受控重建解耦这些因素,将技能质量作为唯一目标隔离出来,并通过 TextGrad 实现原则性优化。
> **图 1:MIND-Skill 概览。**
> **归纳智能体** $A_I$(具有可优化提示 $P_I$)将成功轨迹 $\tau$ 抽象为结构化技能文档。**演绎智能体** $A_D$(具有冻结提示 $P_D$)随后尝试在实时环境中仅遵循归纳出的技能和任务规范来重建轨迹。三种文本损失评估生成技能的质量:**重建损失**衡量 $\tau$ 和 $\hat{\tau}$ 之间的程序对齐,**结果损失**评估 $\hat{\tau}$ 相对于环境的结果正确性,**标准损失**评估文档质量并正则化技能本身的抽象级别。基于文本的**优化器**聚合它们的文本反馈,通过 TextGrad 更新归纳提示 $P_I$。为了视觉清晰,图中省略了任务规范 $t$。
## 3 MIND-Skill
成功轨迹包含宝贵的程序性知识,但从它们中挖掘高质量、通用的智能体技能本质上是具有挑战性的,因为它们经常将可转移的策略与实例级别的细节纠缠在一起。MIND-Skill 通过新颖的多智能体归纳与演绎框架解决了这个问题。具体而言,**归纳智能体** $A_I$(具有可优化提示 $P_I$)的任务是根据输入(成功)轨迹 $\tau$ 和任务规范 $t$ 推导技能 $s$,而**演绎智能体** $A_D$ 尝试仅根据 $t$ 和 $s$ 重建 $\tau$。为了确保 $s$ 保留所有关键程序性知识,我们保持演绎智能体的提示 $P_D$ 冻结,使其在重建和优化期间除了归纳出的技能外不接受任何指导。
对于每个输入对 $(t, \tau)$,我们针对三个文本损失函数优化归纳提示 $P_I$:**重建损失** $L_{recon}$ 衡量原始与重建轨迹之间的程序对齐,**结果损失** $L_{outcome}$ 强制重建轨迹的正确性,**标准损失** $L_{rubric}$ 评估文档质量并正则化技能的抽象级别。对于每个输入任务 $t$ 和轨迹 $\tau$,我们执行**字典序最小化**,其中 $L_{outcome}$ 是主要目标,$L_{recon}$ 是...相似文章
SkillGen:经过验证的推理时代理技能合成
本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成
本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
@Sumanth_077: 让智能体设计智能体!Memento-Skills 是一个自我进化的智能体框架,智能体从失败中学习并重写……
Memento-Skills 是一个自我进化的智能体框架,智能体从失败中学习并重写自己的技能,通过“读取-执行-反思-写入”循环不断改进。该框架在 HLE 和 GAIA 基准测试上进行了测试,并支持 Kimi、MiniMax、GLM 等开源大语言模型。