@MSFTResearch: AI智能体常常失败，因为它们的指令（或技能）是手动修改的，无法保证改进。Lea…

X AI KOLs Following 2026/06/30 16:57 论文

摘要

SkillOpt将AI智能体的技能编辑从手动修改转变为训练过程，在不改变模型权重的情况下提高智能体可靠性，并在多个基准测试中取得一致提升。

AI智能体常常失败，因为它们的指令（或技能）是手动修改的，无法保证改进。了解SkillOpt如何将技能编辑转变为训练过程，在不改变模型权重的情况下使智能体行为更可靠：https://t.co/6o0O8c3d4x https://t.co/TlfpieGJ8m

查看原文

查看缓存全文

缓存时间: 2026/06/30 17:51

AI agent 常常失败，原因在于它们的指令或技能被手动修改，而无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程，在不改变模型权重的情况下让 agent 行为更可靠：https://t.co/6o0O8c3d4x https://t.co/TlfpieGJ8m

SkillOpt 将 AI agent 技能转变为可训练资产

来源：https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/ SkillOpt 博客 | 抽象绿色背景上的三条白色线条图标 | 盾牌图标、齿轮图标、带对勾的圆圈图标## 概览

AI agent 常常失败，因为它们的指令或技能被手动修改，却无法保证性能提升。SkillOpt 将技能编辑转变为训练过程，在不改变模型权重的情况下让 agent 行为更可靠。
SkillOpt 将 agent 技能文件视为冻结目标模型之外的可训练参数，将技能编写从一次性提示转变为受控的优化过程。
在六个基准测试、七个目标模型和三种执行模式下，SkillOpt 在所有 52 个评估单元中均达到最佳或并列最佳，且无需更新模型权重即可提升性能。
通过有界文本编辑、验证门控、拒绝编辑反馈以及慢/元更新，SkillOpt 保持技能文件紧凑且可审计，避免了不可控的提示漂移。
优化后的技能可跨模型规模、agent 框架和相关任务迁移，表明它们捕获的是可复用的工作流知识，而非特定基准的指令。

大型语言模型（LLMs）正越来越多地作为 agent 部署，用于收集证据、调用工具和执行多步骤任务。对于这些 agent，难题已不再是能否调用工具，而是能否可靠且一致地完成任务。当前，agent 技能通常来自三个来源：专家手动编写、前沿模型一次性生成、或 agent 在执行后松散地修订。这些方法都不像深度学习优化器。它们缺乏步长控制、保留验证集，也没有对失败修订的记忆。因此，技能往往会随着每次重写而变得更长并发生漂移，一个看似合理的修订可能会悄悄降低实际任务性能。这种不可控的技能演化已成为从 agent 原型迈向可靠、生产级部署的一大障碍。

在我们近期的论文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》（https://www.microsoft.com/en-us/research/publication/skillopt-executive-strategy-for-self-evolving-agent-skills/）中，我们将问题从“如何写出更好的提示？”重新定义为“如何训练技能？”SkillOpt 将技能文件视为位于冻结目标模型之外的可训练参数，引入了训练风格的优化循环，在 52 个评估单元上持续取得收益，并生成紧凑、可读、可审计且可迁移的技能文件。

图 1. 一个冻结的目标模型执行任务，同时一个独立的优化器模型根据轨迹反馈训练技能层，通过验证门控导出可复用的技能文件 best_skill.md。图 1. 一个冻结的目标模型执行任务，同时一个独立的优化器模型根据轨迹反馈训练技能层，通过验证门控导出可复用的技能文件 best_skill.md。

SkillOpt 的工作原理

视频 1. SkillOpt 的优化循环，从轨迹收集到导出的技能文件。 SkillOpt 将技能编辑组织为文本空间中的前向—反向—更新循环。在前向传播中，冻结的目标模型使用当前技能执行一批训练任务；滚动批次大小控制每次更新接收多少证据。在反向传播中，一个独立的优化器模型以反射微批的形式读取生成的轨迹，从成功轨迹中提取要保留的模式，从失败轨迹中提取要纠正的模式。

在更新步骤中，优化器提出小的添加、删除和替换编辑；候选编辑被合并、去重、排名，并通过文本学习率（即每步编辑预算）进行裁剪。每个候选技能必须通过严格的验证门控：只有当其在保留验证集上的得分严格高于当前技能时才被采纳。被拒绝的编辑不会被丢弃，而是进入一个拒绝编辑缓冲区，作为同一 epoch 中后续优化器调用的负反馈。以较慢的节奏，一个 epoch 级的缓慢/元更新会整合单个批次无法揭示的更长期教训（图 2）。有界编辑、验证门控和最佳版本选择共同使技能优化可控且可审计，因此技能会收敛而非漂移。

图 2. SkillOpt 流程：轨迹收集、微批反射、有界文本更新、验证门控和 epoch 级缓慢/元更新共同约束技能训练。图 2. SkillOpt 流程：轨迹收集、微批反射、有界文本更新、验证门控和 epoch 级缓慢/元更新共同约束技能训练。

跨基准测试、模型和执行模式的持续收益

我们在六个基准测试（SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench 和 ALFWorld）、七个目标模型（从前沿规模的 GPT-5.5 到小型开源 Qwen3.5-4B）和三种执行模式（直接聊天、Codex 和 Claude Code）上评估了 SkillOpt。将每个组合计为一个评估单元，与手动编写的技能、一次性 LLM 技能、Trace2Skill、TextGrad、GEPA 和 EvoSkill 相比，SkillOpt 在所有 52 个单元上均达到最佳或并列最佳。这些性能提升对于不更新模型权重的方法来说异常显著。在直接聊天模式下使用 GPT-5.5，SkillOpt 将六个基准测试的平均值从 58.8 提升至 82.3，绝对提升 +23.5 个百分点，并且比从每个单元中挑选最佳单一竞争方法的 Oracle 高出 +5.4 个百分点。最大收益出现在过程性基准测试上：SpreadsheetBench 从 41.8 升至 80.7，OfficeQA 从 33.1 升至 72.1，LiveMathematicianBench 从 37.6 升至 66.9。相同的界面也适用于 agent 循环，将 GPT-5.5 在 Codex 内提升 +24.8 个百分点，在 Claude Code 内提升 +19.1 个百分点，相比于无技能状态。

播客系列

比尔·盖茨、Peter Lee 和 Sébastien Bubeck 的插图头像（https://www.microsoft.com/en-us/research/story/the-ai-revolution-in-medicine-revisited/）

人工智能在医学领域的革命，再访

加入微软的 Peter Lee，探索人工智能如何影响医疗保健以及它对医学未来的意义。

小模型加技能文件

接近下一个模型层级: SkillOpt 还缩小了小型或开源模型与前沿模型之间的差距，而无需改变任何权重或在推理时增加额外模型调用。优化后，GPT-5.4-mini 的六个基准测试平均值（64.3）超过了较大模型 GPT-5.4（59.7）的无技能基线，GPT-5.4-nano（57.4）超过了 GPT-5.2（51.3）的无技能基线。Qwen3.5-4B，一个 40 亿参数的开源模型，也超过了 GPT-5.2 的无技能基线。曾经需要更大模型才能获得的收益，现在可以通过一个优化的技能文件来近似实现。

可迁移的技能：一次训练，多处复用

优化后的技能文件捕获的是可复用的任务解决过程，而非过拟合于单个模型、基准或执行环境的指令。因此，同一个技能在跨模型规模、agent 框架和相近任务迁移时仍能提升性能。在我们的迁移实验中，技能在跨模型规模、跨执行框架以及迁移到邻近的数学基准时，持续带来收益。最清晰的例子是跨框架迁移：一个在 Codex 中训练的电子表格技能，直接放入 Claude Code 且未进一步优化，将无技能基线从 22.1 提升至 81.8（+59.7），略高于直接在 Claude Code 内训练达到的 80.4。由于两个框架暴露不同的工具接口，这表明 SkillOpt 学习的是通用的工作流逻辑，而不仅仅是框架特定的诀窍。

紧凑、可读且仅由极少被采纳的编辑构成

最终产物 best_skill.md 既不是不透明的参数块，也不是不断增长的日志。在六个案例研究中，最终技能长度的中位数约为 920 个 token，由于验证门控拒绝了大多数提议，最终文件中只被采纳了一到四个编辑。OfficeQA 的 +39.0 分收益仅来自一个被采纳的编辑。学到的规则读起来像经验丰富的实践者的建议。组件消融实验确认了这些控制机制的作用：移除拒绝编辑缓冲区会降低所有三个消融基准的分数，同时移除元技能和慢更新会使 SpreadsheetBench 从 77.5 降至 55.0。为 agent 时代打造的新适配层: SkillOpt 指出了一条更轻量级的 agent 领域适配路径：无需微调权重、硬编码任务逻辑或手动调整提示，团队可以训练一个紧凑、可版本化、可审计的自然语言技能层——只要存在自动评估或可靠的验证器。

通过将学习率、调度、验证集拆分、拒绝样本和慢更新引入 agent 技能，SkillOpt 表明训练不必局限于模型权重。模型之外的过程性知识也可以被优化。

当这个过程是可控制的、经过验证且有记录时，自然语言技能就变成了一个稳定、可迁移且可逆的适配器，连接着前沿模型能力与实际工作负载。阅读完整论文，访问项目页面 aka.ms/skillopt（在新标签页中打开）(https://aka.ms/skillopt)，或探索 SkillOpt GitHub 仓库 github.com/microsoft/SkillOpt（在新标签页中打开）(https://github.com/microsoft/SkillOpt)。构建 agent 工作流的团队可以使用 SkillOpt 作为基础，针对自己的任务和验证器训练可复用的技能。另请参阅我们的姊妹项目 SkillLens。

@NFTCPS: 微软搞了个东西叫 SkillOpt，思路挺野：把 agent 的技能文档当成神经网络一样来训练，有 epoch、batch、学习率、验证集，但一根模型权重都不碰。它牛在哪？我给你拆三点：训练只改一份 skill 文档，新的改动必须在验…

X AI KOLs Timeline

微软推出SkillOpt，一种将智能体技能文档像神经网络一样训练的方法，通过epoch、batch、学习率和验证集来进行优化，但不修改模型权重。在多项基准测试中取得最佳结果，可跨模型和工具迁移。

@MSFTResearch: AI智能体常常失败，因为它们的指令（或技能）是手动修改的，无法保证改进。Lea…

SkillOpt 将 AI agent 技能转变为可训练资产

SkillOpt 的工作原理

跨基准测试、模型和执行模式的持续收益

人工智能在医学领域的革命，再访

小模型加技能文件

可迁移的技能：一次训练，多处复用

紧凑、可读且仅由极少被采纳的编辑构成

相似文章

@omarsar0: 微软研究院的新研究我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

@DAIEvolutionHub: 微软刚刚开源了一种无需触及模型权重即可“训练”AI智能体的方法 SkillOpt 将简单的 markdown 技能文件视为神经网络参数...

@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重，而是将自然语言…

@NFTCPS: 微软搞了个东西叫 SkillOpt，思路挺野：把 agent 的技能文档当成神经网络一样来训练，有 epoch、batch、学习率、验证集，但一根模型权重都不碰。它牛在哪？我给你拆三点：训练只改一份 skill 文档，新的改动必须在验…

提交意见反馈

SkillOpt 将 AI agent 技能转变为可训练资产

SkillOpt 的工作原理

跨基准测试、模型和执行模式的持续收益

人工智能在医学领域的革命，再访

小模型加技能文件

可迁移的技能：一次训练，多处复用

紧凑、可读且仅由极少被采纳的编辑构成

相似文章

@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

@DAIEvolutionHub: 微软刚刚开源了一种无需触及模型权重即可“训练”AI智能体的方法 SkillOpt 将简单的 markdown 技能文件视为神经网络参数...

@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重，而是将自然语言…

@NFTCPS: 微软搞了个东西叫 SkillOpt，思路挺野：把 agent 的技能文档当成神经网络一样来训练，有 epoch、batch、学习率、验证集，但一根模型权重都不碰。 它牛在哪？我给你拆三点： 训练只改一份 skill 文档，新的改动必须在验…

提交意见反馈

@omarsar0: 微软研究院的新研究我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

@NFTCPS: 微软搞了个东西叫 SkillOpt，思路挺野：把 agent 的技能文档当成神经网络一样来训练，有 epoch、batch、学习率、验证集，但一根模型权重都不碰。它牛在哪？我给你拆三点：训练只改一份 skill 文档，新的改动必须在验…