@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

X AI KOLs Timeline 2026/06/22 14:25 论文

ai-agents skill-optimization llm autonomous-agents prompt-engineering research

摘要

本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件，该技术将技能文档视为可训练状态，并带来显著的性能提升。文章还解决了手动技能调优的挑战，并介绍了GEPA和EvoSkill等进化方法的框架。

https://t.co/ilLp0r7cwq

查看原文

查看缓存全文

缓存时间: 2026/06/22 17:49

你的AI代理如何编写和优化自己的技能文件

为什么手动调整技能文件会拖累你的代理，以及正在发生的变化

5分钟了解为什么技能文件决定了AI代理的成败，以及SkillOpt、GEPA和EvoSkill等自动优化器如何改变现状。

部署可靠的代理系统的真正瓶颈不再是底层语言模型的核心能力。今天的LLM已经非常强大。

相反，代理的质量在很大程度上取决于你赋予它们的技能。在现代代理框架中，技能是一个独立的.md文件，充当代理执行一组任务的操作规程。

本文改编自@bendee983的AlphaSignal周日深度解析，主题是AI代理如何编写和优化自己的技能文件。

它概述了代理应遵循的指令、工具使用指南、格式要求和故障恢复逻辑。

优化这些文本文件仍然是一个缓慢且手动化的过程。开发人员必须手动编辑指令，在任务套件上测试，分析失败原因，然后重写文本。这种手动循环无法扩展。

而且与底层模型不同，技能文档不能像机器学习模型那样进行训练。它缺乏可微分的参数，意味着无法计算精确的梯度来指导更新。

技能优化的根本挑战

调整技能文件中的文本指令也可能引发下游问题。当你编辑一个Markdown文件以修复长期任务A中的脆弱行为时，可能会在任务B中导致回归。

如果没有系统性的追踪，几乎不可能找出单个文本更改的因果影响。

行业对此问题的回应是从静态手动提示转向系统驱动的自动化。工程师们正在构建优化循环，将技能文档视为可训练的外部状态。

SkillOpt：结构化文本空间优化器

由微软研究院开发的SkillOpt将文本文档视为神经网络参数。

它建立了一个优化管道，在不改变底层模型权重的情况下更新技能。

SkillOpt的训练管道通过一个结构化循环运作：

展开执行： 系统执行一批任务，并记录它们的执行轨迹。
评估： 轨迹从验证器获得成功或失败的分数。
反思： 一个单独的LLM优化器分析这些轨迹的小批量数据，以识别导致失败的特定文本组件。
有界编辑： 优化器提出具体的添加、删除或替换修改。一个文本学习率预算限制了这些编辑的范围，以防止剧烈变化。

提出的编辑会经过严格测试，以确保它们实际有效。它们在一个训练期间未见过的预留验证集上进行评估。系统将失败的更改存储在一个拒绝编辑缓冲区中，以确保稳定的性能提升。

这种系统化的过程产生了高性能的紧凑制品。在GPT-5.5上，SkillOpt在直接聊天中平均提升了+23.5个百分点，在Codex循环中提升了+24.8个百分点。

它在评估的52个模型、基准和代理框架设置中取得了最高或并列最好的性能。优化后的技能文件仍然非常高效，中位数长度约为920个token。

实验表明，由SkillOpt在特定模型和框架上优化的技能文档可以泛化到其他模型和框架（不过通常最好针对你自己的模型/框架配置进行优化以获得最佳性能）。

GEPA

除了对单个文本文件进行有界编辑之外，其他框架通过进化编程和多代理合成来处理技能优化。

GEPA（遗传-帕累托）是一个使用进化算法来改进LLM指令的优化框架。

它可以应用于提示、技能和其他基于文本的制品。当代理执行任务时，GEPA使用一个LLM（可以与驱动代理的是同一个）来反思推理轨迹，诊断失败，并提出原始制品的不同“变异”。

GEPA通过“帕累托选择”探索这些不同路径，它创建了一个在不同任务上表现良好的顶级候选列表。

然后它使用这个候选池来采样多样化的获胜策略，并探索更多能够广泛泛化到各种输入的解决方案。

GEPA非常通用，并且与DSPy（用于优化LLM提示的流行框架）兼容。

EvoSkill

EvoSkill是一个新框架，它利用GEPA的思想来发现和合作用于多代理编码工作流的技能。

EvoSkill使用了与SkillOpt相同的基本思想：一个优化循环，分析执行轨迹，找到错误模式并提出修复方案。

与GEPA一样，EvoSkill同时跟踪多个技能候选，将它们保存在不同的Git分支上，并使用帕累托前沿选择性能最高的变体。

为了理解这在实际中如何运作，考虑一个工程场景：一个编码代理在解析内部公司API时，一直无法处理嵌套的分页链接。

EvoSkill在一个预留数据集上评估一个分支。如果分页准确率超过了基准线，这个版本就取代活跃帕累托前沿上性能最低的变体。

权衡、成本与实践考量

自动文本空间优化需要结构上的先决条件。像SkillOpt和EvoSkill这样的系统无法处理主观的、完全开放的任务。

它们需要一个可验证的反馈信号和一个干净、有代表性的预留评估数据集。

主要的权衡完全在于前期计算。因为LLM优化器必须读取和分析大量的token历史来诊断失败，训练技能可能会消耗大量资源且成本高昂。

但这为你提供了选择：通过花费更多AI优化成本来节省时间和手动精力。

不过值得注意的是，这种成本只适用于优化阶段。由于最终输出是一个标准化的文本块，在推理阶段不会产生额外成本。

而且由于输出是标准的技能文件，不需要对推理栈进行任何更改。

循环工程与自我优化代理

这些专门的工具链反映了一个更广泛的架构演变。开发领域正在从简单的、线性的提示转向“循环工程”。

AlphaSignal AI@AlphaSignalAI·6月15日文章关于循环工程（包括陷阱）5分钟内，你将了解生产级AI循环的精确结构，以及如何防止它失控。上周，OpenClaw的创建者Peter Steinberger发布了一条明确的指令……52812611K

循环工程的主要理念是创建一个可重复的循环，具有明确且可验证的目标，让LLM或AI代理重复任务直到达到最优性能。

这种架构创建了一个端到端的自我改进循环。开发人员不再编写提示，而是组装控制系统，包含精确的评估指标、内存存储和退出条件。

生产系统随后可以跟踪实时代理轨迹，标记重复出现的边缘案例失败，并启动后台优化例程以安全地更新自己的文件。

在系统提示或技能文件中逐句调整的时代即将结束。

随着AI代理在处理细节方面变得更好，工程师将承担更高级的角色：设计系统并监督执行。

本文改编自@bendee983的AlphaSignal周日深度解析，主题是AI代理如何编写和优化自己的技能文件。

所有来源链接在第一条回复中。我们新闻通讯中提供最新更新的完整解析和每日信号（链接在个人简介中）。

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

你的AI代理如何编写和优化自己的技能文件

为什么手动调整技能文件会拖累你的代理，以及正在发生的变化

技能优化的根本挑战

SkillOpt：结构化文本空间优化器

GEPA

EvoSkill

权衡、成本与实践考量

循环工程与自我优化代理

相似文章

@omarsar0: 微软研究院的新研究我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

SkillOpt：自我进化智能体技能的执行策略

@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重，而是将自然语言…

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

Turing Post (@TheTuringPost) 在 X 上

提交意见反馈

你的AI代理如何编写和优化自己的技能文件

为什么手动调整技能文件会拖累你的代理，以及正在发生的变化

技能优化的根本挑战

SkillOpt：结构化文本空间优化器

GEPA

EvoSkill

权衡、成本与实践考量

循环工程与自我优化代理

相似文章

@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

SkillOpt：自我进化智能体技能的执行策略

@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重，而是将自然语言…

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

Turing Post (@TheTuringPost) 在 X 上

提交意见反馈

@omarsar0: 微软研究院的新研究我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…