@zachlloydtweets: https://x.com/zachlloydtweets/status/2069428152338665622

X AI KOLs Timeline 工具

摘要

这篇帖子解释了如何为AI代理创建一个自动化反馈循环,使其能够迭代提升技能。该循环利用computer use和一个观察者技能来评估并更新技能代码。

https://t.co/vHY2PtGsma
查看原文
查看缓存全文

缓存时间: 2026/06/23 16:11

构建技能优化循环

这篇文章展示了如何创建一个带有自动反馈的循环,让智能体能够不断优化自身的技能。具体做法是使用一个自动评分器,结合计算机使用(computer use)来评估技能的执行效果,然后通过迭代来改进技能。

只要技能具有明确的验证标准,你就可以应用这种技术来构建改进循环。

我将以“将网站从 WYSIWYG 平台迁移到自托管代码”这个技能为例(我们最近为自己的营销网站做了类似操作)。这个技能叫做 /replatform-site(源代码在此)。它是一个通用的技能,但这篇文章的重点并不在于这个具体用例,而在于展示如何通过循环来评估和改进技能。

为了增加趣味性,假设我正在启动一个名为 Talking Slop 的新播客,专门和喜欢讨论 AI 趋势的朋友们一起聊。你可以看到我已经在 talkingslop.ai 上搭建了这个网站,目前它托管在一个无代码的 WYSIWYG 平台上。我觉得如果能把它以代码形式托管在 Vercel 上,我就能更快地“最大化”这个网站(slopmaxx),所以我会对它运行 /replatform-site

初次运行时,它已经走得很远了,但有一个明显的视觉缺陷——这些下拉切换按钮缺少图标。你可以对比一下 talkingslop.ai 和生成的端口 talking-slop.vercel.app

这就是循环发挥作用的地方。由于这是一个可验证的任务,你可以创建循环来自动改进它。实际上,这里可以实现两种循环:

  • 确保这次具体的迁移工作成功的循环。
  • 使迁移技能本身在未来更有可能表现更好的循环。

我将重点讨论第二种循环,即外循环。关于内循环与外循环的区别,可以看我关于自我改进循环的文章。

我通过另一个技能来设置这个循环,采用创建“观察者”技能(源代码)的模式,为“内层”技能打分。这个观察者技能接收 N 个要迁移的网站,对它们调用 /replatform-site,然后构建这些网站,并使用计算机使用和浏览器使用来检查它们的行为和视觉差异。它还会记录迁移消耗了多少 token,并尝试在保持质量的同时优化成本。

然后,它使用 SOTA 模型对结果进行综合,寻找失败模式和改进机会,并生成一个 diff 来更新内层技能。由于技能本质上就是文件,你可以使用任何编码智能体(如 Warp)来进行分析并提交 PR 来更新技能。

迁移“观察者”技能

观察者技能使用结构化的数据结果,以便在建议修复内层技能时尽可能智能。它相当复杂,但核心概念很简单:运行内层技能,记录失败,生成一个 diff 来改进它,然后重复。

为了运行这个循环,你需要一个支持多个智能体编排并支持计算机使用的平台。我使用了内置在 Warp 中的 Oz,它支持多个 SOTA 模型的计算机使用,但市面上也有许多其他选择(如果你想在 Oz 中尝试,我为此专门创建了一个技能,叫做 /oz-orchestrated-replatforming)。

这是它在一次早期运行中针对 talkingslop.ai 生成的 diff 版本。这里它注意到了下拉菜单的问题,并提出了改进建议:

如果你想在更大的语料库上调整这个技能以用于更广泛的场景,你可以扩大输入网站的数量,并持续迭代,直到观察者生成的 diff 变得不再有意义。观察者本身内置了停止循环的退出条件,这样就不会无止境地消耗 token 进行优化。

这个系统并非完美——通过调整技能能够改进的程度有限,而且容易陷入局部最优——但它作为一个确保技能表现良好的简单方法,还是相当实用的。

如果你想尝试一下,所有相关技能都已开源:https://github.com/warpdotdev-demos/replatformer

敬请期待我的第一期 Talking Slop 播客 😉

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

X AI KOLs Timeline

本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

X AI KOLs Timeline

对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。