@MSFTResearch: AI智能体常常失败,因为它们的指令(或技能)是手动修改的,无法保证改进。Lea…
摘要
SkillOpt将AI智能体的技能编辑从手动修改转变为训练过程,在不改变模型权重的情况下提高智能体可靠性,并在多个基准测试中取得一致提升。
查看缓存全文
缓存时间: 2026/06/30 17:51
AI agent 常常失败,原因在于它们的指令或技能被手动修改,而无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程,在不改变模型权重的情况下让 agent 行为更可靠:https://t.co/6o0O8c3d4x https://t.co/TlfpieGJ8m
SkillOpt 将 AI agent 技能转变为可训练资产
来源:https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/ SkillOpt 博客 | 抽象绿色背景上的三条白色线条图标 | 盾牌图标、齿轮图标、带对勾的圆圈图标## 概览
- AI agent 常常失败,因为它们的指令或技能被手动修改,却无法保证性能提升。SkillOpt 将技能编辑转变为训练过程,在不改变模型权重的情况下让 agent 行为更可靠。
- SkillOpt 将 agent 技能文件视为冻结目标模型之外的可训练参数,将技能编写从一次性提示转变为受控的优化过程。
- 在六个基准测试、七个目标模型和三种执行模式下,SkillOpt 在所有 52 个评估单元中均达到最佳或并列最佳,且无需更新模型权重即可提升性能。
- 通过有界文本编辑、验证门控、拒绝编辑反馈以及慢/元更新,SkillOpt 保持技能文件紧凑且可审计,避免了不可控的提示漂移。
- 优化后的技能可跨模型规模、agent 框架和相关任务迁移,表明它们捕获的是可复用的工作流知识,而非特定基准的指令。
大型语言模型(LLMs)正越来越多地作为 agent 部署,用于收集证据、调用工具和执行多步骤任务。对于这些 agent,难题已不再是能否调用工具,而是能否可靠且一致地完成任务。当前,agent 技能通常来自三个来源:专家手动编写、前沿模型一次性生成、或 agent 在执行后松散地修订。这些方法都不像深度学习优化器。它们缺乏步长控制、保留验证集,也没有对失败修订的记忆。因此,技能往往会随着每次重写而变得更长并发生漂移,一个看似合理的修订可能会悄悄降低实际任务性能。这种不可控的技能演化已成为从 agent 原型迈向可靠、生产级部署的一大障碍。
在我们近期的论文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》(https://www.microsoft.com/en-us/research/publication/skillopt-executive-strategy-for-self-evolving-agent-skills/)中,我们将问题从“如何写出更好的提示?”重新定义为“如何训练技能?”SkillOpt 将技能文件视为位于冻结目标模型之外的可训练参数,引入了训练风格的优化循环,在 52 个评估单元上持续取得收益,并生成紧凑、可读、可审计且可迁移的技能文件。
图 1. 一个冻结的目标模型执行任务,同时一个独立的优化器模型根据轨迹反馈训练技能层,通过验证门控导出可复用的技能文件 best_skill.md。 图 1. 一个冻结的目标模型执行任务,同时一个独立的优化器模型根据轨迹反馈训练技能层,通过验证门控导出可复用的技能文件 best_skill.md。
SkillOpt 的工作原理
视频 1. SkillOpt 的优化循环,从轨迹收集到导出的技能文件。 SkillOpt 将技能编辑组织为文本空间中的前向—反向—更新循环。在前向传播中,冻结的目标模型使用当前技能执行一批训练任务;滚动批次大小控制每次更新接收多少证据。在反向传播中,一个独立的优化器模型以反射微批的形式读取生成的轨迹,从成功轨迹中提取要保留的模式,从失败轨迹中提取要纠正的模式。
在更新步骤中,优化器提出小的添加、删除和替换编辑;候选编辑被合并、去重、排名,并通过文本学习率(即每步编辑预算)进行裁剪。每个候选技能必须通过严格的验证门控:只有当其在保留验证集上的得分严格高于当前技能时才被采纳。被拒绝的编辑不会被丢弃,而是进入一个拒绝编辑缓冲区,作为同一 epoch 中后续优化器调用的负反馈。以较慢的节奏,一个 epoch 级的缓慢/元更新会整合单个批次无法揭示的更长期教训(图 2)。有界编辑、验证门控和最佳版本选择共同使技能优化可控且可审计,因此技能会收敛而非漂移。
图 2. SkillOpt 流程:轨迹收集、微批反射、有界文本更新、验证门控和 epoch 级缓慢/元更新共同约束技能训练。 图 2. SkillOpt 流程:轨迹收集、微批反射、有界文本更新、验证门控和 epoch 级缓慢/元更新共同约束技能训练。
跨基准测试、模型和执行模式的持续收益
我们在六个基准测试(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench 和 ALFWorld)、七个目标模型(从前沿规模的 GPT-5.5 到小型开源 Qwen3.5-4B)和三种执行模式(直接聊天、Codex 和 Claude Code)上评估了 SkillOpt。将每个组合计为一个评估单元,与手动编写的技能、一次性 LLM 技能、Trace2Skill、TextGrad、GEPA 和 EvoSkill 相比,SkillOpt 在所有 52 个单元上均达到最佳或并列最佳。这些性能提升对于不更新模型权重的方法来说异常显著。在直接聊天模式下使用 GPT-5.5,SkillOpt 将六个基准测试的平均值从 58.8 提升至 82.3,绝对提升 +23.5 个百分点,并且比从每个单元中挑选最佳单一竞争方法的 Oracle 高出 +5.4 个百分点。最大收益出现在过程性基准测试上:SpreadsheetBench 从 41.8 升至 80.7,OfficeQA 从 33.1 升至 72.1,LiveMathematicianBench 从 37.6 升至 66.9。相同的界面也适用于 agent 循环,将 GPT-5.5 在 Codex 内提升 +24.8 个百分点,在 Claude Code 内提升 +19.1 个百分点,相比于无技能状态。
播客系列
比尔·盖茨、Peter Lee 和 Sébastien Bubeck 的插图头像(https://www.microsoft.com/en-us/research/story/the-ai-revolution-in-medicine-revisited/)
人工智能在医学领域的革命,再访
加入微软的 Peter Lee,探索人工智能如何影响医疗保健以及它对医学未来的意义。
小模型加技能文件
接近下一个模型层级: SkillOpt 还缩小了小型或开源模型与前沿模型之间的差距,而无需改变任何权重或在推理时增加额外模型调用。优化后,GPT-5.4-mini 的六个基准测试平均值(64.3)超过了较大模型 GPT-5.4(59.7)的无技能基线,GPT-5.4-nano(57.4)超过了 GPT-5.2(51.3)的无技能基线。Qwen3.5-4B,一个 40 亿参数的开源模型,也超过了 GPT-5.2 的无技能基线。曾经需要更大模型才能获得的收益,现在可以通过一个优化的技能文件来近似实现。
可迁移的技能:一次训练,多处复用
优化后的技能文件捕获的是可复用的任务解决过程,而非过拟合于单个模型、基准或执行环境的指令。因此,同一个技能在跨模型规模、agent 框架和相近任务迁移时仍能提升性能。在我们的迁移实验中,技能在跨模型规模、跨执行框架以及迁移到邻近的数学基准时,持续带来收益。最清晰的例子是跨框架迁移:一个在 Codex 中训练的电子表格技能,直接放入 Claude Code 且未进一步优化,将无技能基线从 22.1 提升至 81.8(+59.7),略高于直接在 Claude Code 内训练达到的 80.4。由于两个框架暴露不同的工具接口,这表明 SkillOpt 学习的是通用的工作流逻辑,而不仅仅是框架特定的诀窍。
紧凑、可读且仅由极少被采纳的编辑构成
最终产物 best_skill.md 既不是不透明的参数块,也不是不断增长的日志。在六个案例研究中,最终技能长度的中位数约为 920 个 token,由于验证门控拒绝了大多数提议,最终文件中只被采纳了一到四个编辑。OfficeQA 的 +39.0 分收益仅来自一个被采纳的编辑。学到的规则读起来像经验丰富的实践者的建议。组件消融实验确认了这些控制机制的作用:移除拒绝编辑缓冲区会降低所有三个消融基准的分数,同时移除元技能和慢更新会使 SpreadsheetBench 从 77.5 降至 55.0。为 agent 时代打造的新适配层: SkillOpt 指出了一条更轻量级的 agent 领域适配路径:无需微调权重、硬编码任务逻辑或手动调整提示,团队可以训练一个紧凑、可版本化、可审计的自然语言技能层——只要存在自动评估或可靠的验证器。
通过将学习率、调度、验证集拆分、拒绝样本和慢更新引入 agent 技能,SkillOpt 表明训练不必局限于模型权重。模型之外的过程性知识也可以被优化。
当这个过程是可控制的、经过验证且有记录时,自然语言技能就变成了一个稳定、可迁移且可逆的适配器,连接着前沿模型能力与实际工作负载。阅读完整论文,访问项目页面 aka.ms/skillopt(在新标签页中打开)(https://aka.ms/skillopt),或探索 SkillOpt GitHub 仓库 github.com/microsoft/SkillOpt(在新标签页中打开)(https://github.com/microsoft/SkillOpt)。构建 agent 工作流的团队可以使用 SkillOpt 作为基础,针对自己的任务和验证器训练可复用的技能。另请参阅我们的姊妹项目 SkillLens。
相似文章
@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档,并希望它们能泛化。…
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387
本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。
@DAIEvolutionHub: 微软刚刚开源了一种无需触及模型权重即可“训练”AI智能体的方法 SkillOpt 将简单的 markdown 技能文件视为神经网络参数...
微软开源了 SkillOpt,这是一种将 markdown 技能文件视为神经网络参数来训练 AI 智能体的方法,无需修改模型权重,并使用学习率、验证检查、小批量数据和训练轮次进行优化。
@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重,而是将自然语言…
介绍 SkillOpt,一个将自然语言技能视为可训练外部参数而非微调模型权重的优化器。它通过有界编辑和验证门控实现稳定、可控的技能更新,在 7 个模型的 6 个基准测试的 52 个设置中取得最佳或并列最佳结果。
@NFTCPS: 微软搞了个东西叫 SkillOpt,思路挺野:把 agent 的技能文档当成神经网络一样来训练,有 epoch、batch、学习率、验证集,但一根模型权重都不碰。 它牛在哪?我给你拆三点: 训练只改一份 skill 文档,新的改动必须在验…
微软推出SkillOpt,一种将智能体技能文档像神经网络一样训练的方法,通过epoch、batch、学习率和验证集来进行优化,但不修改模型权重。在多项基准测试中取得最佳结果,可跨模型和工具迁移。