@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387
摘要
本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。
查看缓存全文
缓存时间: 2026/06/22 17:49
你的AI代理如何编写和优化自己的技能文件
为什么手动调整技能文件会拖累你的代理,以及正在发生的变化
5分钟了解为什么技能文件决定了AI代理的成败,以及SkillOpt、GEPA和EvoSkill等自动优化器如何改变现状。
部署可靠的代理系统的真正瓶颈不再是底层语言模型的核心能力。今天的LLM已经非常强大。
相反,代理的质量在很大程度上取决于你赋予它们的技能。在现代代理框架中,技能是一个独立的.md文件,充当代理执行一组任务的操作规程。
本文改编自@bendee983的AlphaSignal周日深度解析,主题是AI代理如何编写和优化自己的技能文件。
它概述了代理应遵循的指令、工具使用指南、格式要求和故障恢复逻辑。
优化这些文本文件仍然是一个缓慢且手动化的过程。开发人员必须手动编辑指令,在任务套件上测试,分析失败原因,然后重写文本。这种手动循环无法扩展。
而且与底层模型不同,技能文档不能像机器学习模型那样进行训练。它缺乏可微分的参数,意味着无法计算精确的梯度来指导更新。
技能优化的根本挑战
调整技能文件中的文本指令也可能引发下游问题。当你编辑一个Markdown文件以修复长期任务A中的脆弱行为时,可能会在任务B中导致回归。
如果没有系统性的追踪,几乎不可能找出单个文本更改的因果影响。
行业对此问题的回应是从静态手动提示转向系统驱动的自动化。工程师们正在构建优化循环,将技能文档视为可训练的外部状态。
SkillOpt:结构化文本空间优化器
由微软研究院开发的SkillOpt将文本文档视为神经网络参数。
它建立了一个优化管道,在不改变底层模型权重的情况下更新技能。
SkillOpt的训练管道通过一个结构化循环运作:
- 展开执行: 系统执行一批任务,并记录它们的执行轨迹。
- 评估: 轨迹从验证器获得成功或失败的分数。
- 反思: 一个单独的LLM优化器分析这些轨迹的小批量数据,以识别导致失败的特定文本组件。
- 有界编辑: 优化器提出具体的添加、删除或替换修改。一个文本学习率预算限制了这些编辑的范围,以防止剧烈变化。
提出的编辑会经过严格测试,以确保它们实际有效。它们在一个训练期间未见过的预留验证集上进行评估。系统将失败的更改存储在一个拒绝编辑缓冲区中,以确保稳定的性能提升。
这种系统化的过程产生了高性能的紧凑制品。在GPT-5.5上,SkillOpt在直接聊天中平均提升了+23.5个百分点,在Codex循环中提升了+24.8个百分点。
它在评估的52个模型、基准和代理框架设置中取得了最高或并列最好的性能。优化后的技能文件仍然非常高效,中位数长度约为920个token。
实验表明,由SkillOpt在特定模型和框架上优化的技能文档可以泛化到其他模型和框架(不过通常最好针对你自己的模型/框架配置进行优化以获得最佳性能)。
GEPA
除了对单个文本文件进行有界编辑之外,其他框架通过进化编程和多代理合成来处理技能优化。
GEPA(遗传-帕累托)是一个使用进化算法来改进LLM指令的优化框架。
它可以应用于提示、技能和其他基于文本的制品。当代理执行任务时,GEPA使用一个LLM(可以与驱动代理的是同一个)来反思推理轨迹,诊断失败,并提出原始制品的不同“变异”。
GEPA通过“帕累托选择”探索这些不同路径,它创建了一个在不同任务上表现良好的顶级候选列表。
然后它使用这个候选池来采样多样化的获胜策略,并探索更多能够广泛泛化到各种输入的解决方案。
GEPA非常通用,并且与DSPy(用于优化LLM提示的流行框架)兼容。
EvoSkill
EvoSkill是一个新框架,它利用GEPA的思想来发现和合作用于多代理编码工作流的技能。
EvoSkill使用了与SkillOpt相同的基本思想:一个优化循环,分析执行轨迹,找到错误模式并提出修复方案。
与GEPA一样,EvoSkill同时跟踪多个技能候选,将它们保存在不同的Git分支上,并使用帕累托前沿选择性能最高的变体。
为了理解这在实际中如何运作,考虑一个工程场景:一个编码代理在解析内部公司API时,一直无法处理嵌套的分页链接。
EvoSkill在一个预留数据集上评估一个分支。如果分页准确率超过了基准线,这个版本就取代活跃帕累托前沿上性能最低的变体。
权衡、成本与实践考量
自动文本空间优化需要结构上的先决条件。像SkillOpt和EvoSkill这样的系统无法处理主观的、完全开放的任务。
它们需要一个可验证的反馈信号和一个干净、有代表性的预留评估数据集。
主要的权衡完全在于前期计算。因为LLM优化器必须读取和分析大量的token历史来诊断失败,训练技能可能会消耗大量资源且成本高昂。
但这为你提供了选择:通过花费更多AI优化成本来节省时间和手动精力。
不过值得注意的是,这种成本只适用于优化阶段。由于最终输出是一个标准化的文本块,在推理阶段不会产生额外成本。
而且由于输出是标准的技能文件,不需要对推理栈进行任何更改。
循环工程与自我优化代理
这些专门的工具链反映了一个更广泛的架构演变。开发领域正在从简单的、线性的提示转向“循环工程”。
AlphaSignal AI@AlphaSignalAI·6月15日文章关于循环工程(包括陷阱)5分钟内,你将了解生产级AI循环的精确结构,以及如何防止它失控。上周,OpenClaw的创建者Peter Steinberger发布了一条明确的指令……52812611K
循环工程的主要理念是创建一个可重复的循环,具有明确且可验证的目标,让LLM或AI代理重复任务直到达到最优性能。
这种架构创建了一个端到端的自我改进循环。开发人员不再编写提示,而是组装控制系统,包含精确的评估指标、内存存储和退出条件。
生产系统随后可以跟踪实时代理轨迹,标记重复出现的边缘案例失败,并启动后台优化例程以安全地更新自己的文件。
在系统提示或技能文件中逐句调整的时代即将结束。
随着AI代理在处理细节方面变得更好,工程师将承担更高级的角色:设计系统并监督执行。
本文改编自@bendee983的AlphaSignal周日深度解析,主题是AI代理如何编写和优化自己的技能文件。
所有来源链接在第一条回复中。我们新闻通讯中提供最新更新的完整解析和每日信号(链接在个人简介中)。
相似文章
@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档,并希望它们能泛化。…
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重,而是将自然语言…
介绍 SkillOpt,一个将自然语言技能视为可训练外部参数而非微调模型权重的优化器。它通过有界编辑和验证门控实现稳定、可控的技能更新,在 7 个模型的 6 个基准测试的 52 个设置中取得最佳或并列最佳结果。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766
文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。
Turing Post (@TheTuringPost) 在 X 上
本文解释了从提示工程到技能工程的转变,并介绍了用于训练、维护和优化技能的方法,如 SkillOpt、SkillOps 和 SkillMOO。