@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重,而是将自然语言…
摘要
介绍 SkillOpt,一个将自然语言技能视为可训练外部参数而非微调模型权重的优化器。它通过有界编辑和验证门控实现稳定、可控的技能更新,在 7 个模型的 6 个基准测试的 52 个设置中取得最佳或并列最佳结果。
查看缓存全文
缓存时间: 2026/05/26 05:02
Introducing SkillOpt — 一个用于智能体技能的优化器。
与传统微调模型权重不同,我们将自然语言技能视为一个可训练的外部参数。
可以将其视为面向前沿模型+智能体时代的深度学习:学习率、学习率调度、小批量、批量大小、训练轮次、动量 —— 所有这些都在文本空间中进行优化。 SkillOpt 通过有界编辑实现稳定、可控的技能更新,允许优化器从智能体经验中总结“梯度方向”,并持续改进程序化能力。 我们在6个基准测试和7个模型上评估了 SkillOpt,覆盖了直接模型调用以及使用 Codex + Claude Code 的真实智能体执行循环。在52/52的设置中,SkillOpt 取得了最佳或并列最佳的结果。
训练技能,而非模型。
https://aka.ms/skillopt https://huggingface.co/papers/2605.23904…
自进化智能体技能的执掌策略
来源:https://microsoft.github.io/SkillOpt/ 项目视频
SkillOpt 在行动。
一个简短的视觉概述,展示 SkillOpt 如何将自然语言技能视为可训练工件:展开、反思、编辑、验证和导出。
SkillOpt 项目页面的宣传视频。下方展示了静态论文预告图,方便高分辨率查看。
论文预告图
核心循环一览。
预告图总结了 SkillOpt 训练循环:展开证据、优化器端反思、有界技能编辑、验证门控以及导出的可复用技能。
SkillOpt 预告图,展示目标模型、优化器模型、有界编辑、验证门以及导出的最佳技能。SkillOpt 论文中的图。在小屏幕上,图区域会水平滚动以保留原始细节。
技能是智能体的外部状态。
与微调模型或手动维护提示不同,SkillOpt 在受评分的批次上运行冻结的智能体,让一个独立的优化器模型提出结构化编辑,并且仅在验证性能提升时接受候选技能。
冻结目标模型优化器模型添加/删除/替换编辑留出验证门
展开
目标模型使用当前技能执行任务,并记录受评分的轨迹。
反思
优化器分析成功和失败的小批量,找出可复用的程序。
编辑
在预算约束下,合并候选的添加、删除和替换操作并排序。
门控
仅当候选技能提升留出集的选择性能时,才予以保留。
证据
展开批次包含消息、工具调用、验证器反馈、任务元数据和最终分数。
小批量
失败和成功分别反思,以便编辑纠正重复错误的同时保留有效行为。
有界编辑
编辑预算充当文本学习率,防止有用规则被大范围重写覆盖。
记忆
被拒绝的编辑、慢更新以及优化器端元技能提供了更长时间的反馈,而不会膨胀部署负载。
SkillOpt 流水线,展示展开、反思、有界编辑、验证门、慢更新和元技能。SkillOpt 论文中的流水线。冻结的目标模型使用当前技能执行;优化器模型提出有界编辑;留出验证决定候选技能是否成为新的当前技能。
方法对比
SkillOpt 在每个基准测试上均超越最强基线。
组件设置搜索问答表格电子表格实时数学学习率lr=4 默认87.177.561.3学习率无学习率84.675.757.3被拒绝缓冲区有缓冲区87.177.561.3被拒绝缓冲区无缓冲区85.572.958.9更新记忆元技能 + 慢更新87.177.561.3更新记忆两者都无86.355.059.7
消融实验说明
有界文本学习率防止破坏性重写,同时保持足够的可塑性以学习新程序。
门控留出选择将反思转变为提议并测试的优化,而非无条件的自我编辑。
有缓冲被拒绝的编辑成为负反馈,帮助优化器避免重复有害方向。
表格电子表格基准、搜索问答和实时数学的训练轮次检查点趋势。论文中的训练轮次检查点趋势。选择最佳检查点与训练展开分数和未见测试性能进行比较。
ALFWorld 技能进化曲线选择分数从 68.6% 上升至 81.4%,而被拒绝的编辑显示为向下的候选点。85%80%75%70%65%基准步骤1步骤2步骤3慢更新步骤4
只有在留出选择改善后,接受的编辑才成为当前技能。步骤3由慢更新挽救;步骤4训练更高但未能通过选择。
跨模型+15.2GPT-5.4 在 LiveMathBench 上转移到 GPT-5.4-nano 的实时数学技能。
跨工具链+31.8Codex 训练的在 SpreadsheetBench 上的技能转移到 Claude Code。
自优化+10.4GPT-5.4-nano 用作自身优化器,在 SpreadsheetBench 上相比基线提升。
部署1个文件目标模型仅消费最终技能,而非优化器内存。
更强的优化器模型带来最大增益,但该循环不仅仅是蒸馏自更强的模型。即使匹配目标作为优化器的设置,在更新受约束、有缓冲且经过验证时,也能发现有用的编辑。
@misc{yang2026skilloptexecutivestrategyselfevolving,
title={SkillOpt: Executive Strategy for Self-Evolving Agent Skills},
author={Yifan Yang and Ziyang Gong and Weiquan Huang and Qihao Yang and Ziwei Zhou and Zisu Huang and Yan Li and Xuemei Gao and Qi Dai and Bei Liu and Kai Qiu and Yuqing Yang and Dongdong Chen and Xue Yang and Chong Luo},
year={2026},
eprint={2605.23904},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2605.23904},
}
相似文章
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
SkillOpt 将 markdown 技能文件视为可训练参数并配备适当的优化机制
一篇新论文通过将 markdown 技能文件视为可训练参数并使用经过保留集验证的有界编辑,将智能体的技能优化形式化。该方法在不同模型间迁移良好,并提升了程序化基准测试的性能。
@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档,并希望它们能泛化。…
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
@DAIEvolutionHub: 微软刚刚开源了一种无需触及模型权重即可“训练”AI智能体的方法 SkillOpt 将简单的 markdown 技能文件视为神经网络参数...
微软开源了 SkillOpt,这是一种将 markdown 技能文件视为神经网络参数来训练 AI 智能体的方法,无需修改模型权重,并使用学习率、验证检查、小批量数据和训练轮次进行优化。
@Xudong07452910: 这篇 SkillOpt 论文挺有意思,它其实在讲一件很重要的事: AI Agent 以后不只是靠人写 prompt,而是可以自己训练自己的“工作说明书”。 现在很多 skill / prompt 都是一次性写出来的,真实任务一多,各种边界…
SkillOpt introduces a systematic controllable text-space optimizer that enables AI agents to train and improve their own skills (like 'work instructions') through iterative edits and validation, outperforming human-crafted and one-shot prompts across multiple benchmarks and models.