@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

X AI KOLs Timeline 论文

摘要

本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。

https://t.co/ilLp0r7cwq
查看原文
查看缓存全文

缓存时间: 2026/06/22 17:49

你的AI代理如何编写和优化自己的技能文件

为什么手动调整技能文件会拖累你的代理,以及正在发生的变化

5分钟了解为什么技能文件决定了AI代理的成败,以及SkillOpt、GEPA和EvoSkill等自动优化器如何改变现状。

部署可靠的代理系统的真正瓶颈不再是底层语言模型的核心能力。今天的LLM已经非常强大。

相反,代理的质量在很大程度上取决于你赋予它们的技能。在现代代理框架中,技能是一个独立的.md文件,充当代理执行一组任务的操作规程。

本文改编自@bendee983的AlphaSignal周日深度解析,主题是AI代理如何编写和优化自己的技能文件。

它概述了代理应遵循的指令、工具使用指南、格式要求和故障恢复逻辑。

优化这些文本文件仍然是一个缓慢且手动化的过程。开发人员必须手动编辑指令,在任务套件上测试,分析失败原因,然后重写文本。这种手动循环无法扩展。

而且与底层模型不同,技能文档不能像机器学习模型那样进行训练。它缺乏可微分的参数,意味着无法计算精确的梯度来指导更新。

技能优化的根本挑战

调整技能文件中的文本指令也可能引发下游问题。当你编辑一个Markdown文件以修复长期任务A中的脆弱行为时,可能会在任务B中导致回归。

如果没有系统性的追踪,几乎不可能找出单个文本更改的因果影响。

行业对此问题的回应是从静态手动提示转向系统驱动的自动化。工程师们正在构建优化循环,将技能文档视为可训练的外部状态。

SkillOpt:结构化文本空间优化器

由微软研究院开发的SkillOpt将文本文档视为神经网络参数。

它建立了一个优化管道,在不改变底层模型权重的情况下更新技能。

SkillOpt的训练管道通过一个结构化循环运作:

  • 展开执行: 系统执行一批任务,并记录它们的执行轨迹。
  • 评估: 轨迹从验证器获得成功或失败的分数。
  • 反思: 一个单独的LLM优化器分析这些轨迹的小批量数据,以识别导致失败的特定文本组件。
  • 有界编辑: 优化器提出具体的添加、删除或替换修改。一个文本学习率预算限制了这些编辑的范围,以防止剧烈变化。

提出的编辑会经过严格测试,以确保它们实际有效。它们在一个训练期间未见过的预留验证集上进行评估。系统将失败的更改存储在一个拒绝编辑缓冲区中,以确保稳定的性能提升。

这种系统化的过程产生了高性能的紧凑制品。在GPT-5.5上,SkillOpt在直接聊天中平均提升了+23.5个百分点,在Codex循环中提升了+24.8个百分点。

它在评估的52个模型、基准和代理框架设置中取得了最高或并列最好的性能。优化后的技能文件仍然非常高效,中位数长度约为920个token。

实验表明,由SkillOpt在特定模型和框架上优化的技能文档可以泛化到其他模型和框架(不过通常最好针对你自己的模型/框架配置进行优化以获得最佳性能)。

GEPA

除了对单个文本文件进行有界编辑之外,其他框架通过进化编程和多代理合成来处理技能优化。

GEPA(遗传-帕累托)是一个使用进化算法来改进LLM指令的优化框架。

它可以应用于提示、技能和其他基于文本的制品。当代理执行任务时,GEPA使用一个LLM(可以与驱动代理的是同一个)来反思推理轨迹,诊断失败,并提出原始制品的不同“变异”。

GEPA通过“帕累托选择”探索这些不同路径,它创建了一个在不同任务上表现良好的顶级候选列表。

然后它使用这个候选池来采样多样化的获胜策略,并探索更多能够广泛泛化到各种输入的解决方案。

GEPA非常通用,并且与DSPy(用于优化LLM提示的流行框架)兼容。

EvoSkill

EvoSkill是一个新框架,它利用GEPA的思想来发现和合作用于多代理编码工作流的技能。

EvoSkill使用了与SkillOpt相同的基本思想:一个优化循环,分析执行轨迹,找到错误模式并提出修复方案。

与GEPA一样,EvoSkill同时跟踪多个技能候选,将它们保存在不同的Git分支上,并使用帕累托前沿选择性能最高的变体。

为了理解这在实际中如何运作,考虑一个工程场景:一个编码代理在解析内部公司API时,一直无法处理嵌套的分页链接。

EvoSkill在一个预留数据集上评估一个分支。如果分页准确率超过了基准线,这个版本就取代活跃帕累托前沿上性能最低的变体。

权衡、成本与实践考量

自动文本空间优化需要结构上的先决条件。像SkillOpt和EvoSkill这样的系统无法处理主观的、完全开放的任务。

它们需要一个可验证的反馈信号和一个干净、有代表性的预留评估数据集。

主要的权衡完全在于前期计算。因为LLM优化器必须读取和分析大量的token历史来诊断失败,训练技能可能会消耗大量资源且成本高昂。

但这为你提供了选择:通过花费更多AI优化成本来节省时间和手动精力。

不过值得注意的是,这种成本只适用于优化阶段。由于最终输出是一个标准化的文本块,在推理阶段不会产生额外成本。

而且由于输出是标准的技能文件,不需要对推理栈进行任何更改。

循环工程与自我优化代理

这些专门的工具链反映了一个更广泛的架构演变。开发领域正在从简单的、线性的提示转向“循环工程”。

AlphaSignal AI@AlphaSignalAI·6月15日文章关于循环工程(包括陷阱)5分钟内,你将了解生产级AI循环的精确结构,以及如何防止它失控。上周,OpenClaw的创建者Peter Steinberger发布了一条明确的指令……52812611K

循环工程的主要理念是创建一个可重复的循环,具有明确且可验证的目标,让LLM或AI代理重复任务直到达到最优性能。

这种架构创建了一个端到端的自我改进循环。开发人员不再编写提示,而是组装控制系统,包含精确的评估指标、内存存储和退出条件。

生产系统随后可以跟踪实时代理轨迹,标记重复出现的边缘案例失败,并启动后台优化例程以安全地更新自己的文件。

在系统提示或技能文件中逐句调整的时代即将结束。

随着AI代理在处理细节方面变得更好,工程师将承担更高级的角色:设计系统并监督执行。

本文改编自@bendee983的AlphaSignal周日深度解析,主题是AI代理如何编写和优化自己的技能文件。

所有来源链接在第一条回复中。我们新闻通讯中提供最新更新的完整解析和每日信号(链接在个人简介中)。

相似文章

SkillOpt:自我进化智能体技能的执行策略

Hugging Face Daily Papers

SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

X AI KOLs Timeline

文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。

Turing Post (@TheTuringPost) 在 X 上

X AI KOLs

本文解释了从提示工程到技能工程的转变,并介绍了用于训练、维护和优化技能的方法,如 SkillOpt、SkillOps 和 SkillMOO。