@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820
摘要
探讨了AI编程中从人类在环到自主代理循环的转变,其中代理自我提示并迭代,讨论了减少人类控制的前景与隐藏成本。
查看缓存全文
缓存时间: 2026/06/11 15:40
循环工程并非你想的那样
构建最先进编码智能体的人们说,他们几乎不再直接编写提示词了。取而代之的是构建能生成、审查并改进自身工作的系统。这一承诺颇具诱惑:更少的监控,更多的自动化。
但有一个陷阱。
大多数关于循环的讨论都聚焦于它们能做什么,而非它们耗费什么。每多一轮交互都会消耗 tokens,引入假设,并离你的直接控制越来越远。
如果你想学习 AI 智能体,请查看这个 GitHub 仓库:
https://github.com/Ramakm/ai-agents.git
Boris Cherny——Claude Code 背后的工程师——有一句话让众多开发者停下来思考。
当被问及他如今如何工作时,他说他几乎不再直接给模型写提示词了。取而代之的是,他构建了循环,让这些循环去给模型发提示。他的工作就是构建这些循环。
这是一个微妙但重要的转变。
他不再专注于与 AI 对话。他专注于构建与 AI 对话的系统。OpenClaw 的创建者 Peter Steinberger 也提出了类似观点:停止给编码智能体写提示,开始设计提示它们的循环。
自然而然,AI 界对此趋之若鹜。“智能体循环“成了最新的流行热词。
但跟往常一样,现实比标题更微妙。大多数谈论循环的人无法清晰解释它们到底是什么、何时真正有用,以及为了自动化你放弃了什么。
让我在这篇文章里为你解决这个问题!!
**首先,**什么是“循环“?
其实你一直都在运行一个循环。只是循环里有一个人类:你自己。
你打开 Cursor、Claude Code 或 Codex,输入“给我建一个落地页“。你看返回的结果。英雄区域感觉不对,所以你要求修改。它生成另一个版本。你审查它、引导它、重复这个过程。
生成。审查。引导。重复。
这个周期有一个名字:人在环路中。
智能体负责构建,但你仍然是那个指导、判断和掌舵的人。
自主循环:人类启动一次,然后智能体自行重复提示。没有驾驶员。只有引擎。
自主循环:人类启动一次,然后智能体自行重复提示。没有驾驶员。只有引擎。
这种方式很舒服,因为你能在早期发现偏差。落地页看起来不对?在写任何一行认证代码之前你就说出来了。你既是质量门、审美把关,也是方向修正——所有这些集于一个缓慢、专注的人身上。
新的想法:把人移出
大家都在兴奋的那个趋势翻转了这个图。不再是你每次关闭循环,而是你只关闭一次。你把一个规格文档——也就是描述要构建什么的 spec.md 或 PRD.md 文件——交给智能体,然后你退后一步。
查看这个仓库: https://github.com/snarktank/ai-dev-tasks/blob/main/create-prd.md
智能体生成、读取自己的输出、决定还有什么要做,并再次给自己发送提示。一遍又一遍,自己进行,直到它认为工作完成。
自主循环:人类启动一次,然后智能体自行重复提示。没有驾驶员。只有引擎。
自主循环:人类启动一次,然后智能体自行重复提示。没有驾驶员。只有引擎。
这并非边缘想法。开源开发者 Geoffrey Huntley 将其最简单的版本打包为 “Ralph Wiggum” 循环。其核心是一个 Bash 循环,不断对同一个任务重新运行智能体,直到满足明确的完成条件。
像 Cursor 的 /goal 以及各种流传的 /loop 和 /sloop 命令,都是同一动作的变体:“这是目标;不达到目标不停止。“在 Anthropic,这种工作风格是 Claude 如今能写出大部分合并后生产代码的原因之一。
它让人得以一窥未来的方向。但幻灯片的演示到此结束,现实开始了。
为什么它感觉像魔法,却往往不是
想象一下,你雇佣了一位才华横溢的开发者,给了他们一份规格文档,然后两周没有听到任何消息。
他们回来时带着一个成品。有些决策很到位。另一些则完全偏离了你的想法。
不是因为他们能力差。而是因为没有任何规格文档能涵盖所有细节。
这就是自主循环的问题。
一旦智能体开始替你做数百个决策,它就必须填补空白。而空白总是存在的。
返回的结果可能像老虎机一样。拉下杠杆,等待,希望输出符合你的愿景。有时符合。往往不符合。
最难的是你无法在过程中掌舵。一旦你输入 /goal,列车就离站了。
没人放在幻灯片上的部分:账单
这里有个令人不快的现实:循环不是免费的。
一个单独的请求是一轮 tokens。一个循环可能运行十、二十或五十轮,每一步都携带上下文、输出和历史记录。成本迅速叠加。
这就是整个智能体循环运动中那个安静的星号。
许多倡导完全自主工作流的人预算充裕,token 成本对他们来说几乎无关紧要。大多数开发者没有这种奢侈。
如果你用的是 20、100 甚至 $200 的月度套餐,一个无限制的循环可能以惊人的速度烧掉你的预算。
这就是为什么公司开始对智能体使用设置限制。这项技术强大,但经济考量很重要。
所有这些都不是说循环是坏主意。只是说它们不是魔法。它们是一种工具。就像任何强大的工具一样,在让它自行运行之前,你需要了解它的成本。
那么,循环什么时候真正有效?
这里有一个简单的规则:当成功是客观的时候,循环最有效。
测试通过了吗?分数超过阈值了吗?输出与模板匹配吗?
当答案是明确的是或否时,循环就有了可以优化的具体目标。当成功变得主观时,麻烦就开始了。
“感觉对吗?” “这是我想象的产品吗?” “客户会喜欢这个吗?”
这些不是智能体能可靠衡量的问题。到那时,循环就是在猜测。这就是为什么循环擅长于从固定格式生成数百个 SEO 页面、运行评估或处理大型代码迁移之类的事情。目标清晰,反馈一致。
诚实的地图。在固定 + 二元的角落里,循环是礼物。在创造 + 开放的角落里,它们是老虎机。
诚实的地图。在固定 + 二元的角落里,循环是礼物。在创造 + 开放的角落里,它们是老虎机。
但“为我建一个能盈利的初创公司“则完全不同。产品-市场匹配没有测试套件。品味没有基准。愿景没有客观分数。
目标越主观,人类判断的价值就越大。
一个你今天就能运行的循环
如果有一个循环我几乎会推荐给所有开发者,那就是自动化代码审查循环。
为什么?因为它拥有大多数智能体工作流没有的东西:一个清晰、客观的信号。
你将代码推送到 GitHub。一个审查智能体(如 Greptile、CodeRabbit 或 Macroscope)审查变更并返回一个五分制评分。
然后你设定一个简单的规则:任何低于 4/5 的内容都不准上线。
一个值得运行的循环。评分是固定的反馈;“4/5 或更高“是二元门。其他一切循环直到达到目标。
一个值得运行的循环。评分是固定的反馈;“4/5 或更高“是二元门。其他一切循环直到达到目标。
如果评分是 2/5 或 3/5,你不要手动介入。你触发一个小工作流:读取审查结果、应用建议的修复、推送更改、等待下一次审查。
重复这个过程,直到评分越过 4/5 或循环达到最大尝试次数。这就是一个好的循环的样子:一个封闭系统,有可衡量的目标和清晰的退出条件。
秘诀不在于循环本身。而在于有一个循环可以可靠追逐的评分。如果你想要最简陋的形式,一个 Ralph 风格的循环其实就是围绕你的智能体的几行代码:
注意:即使这个干净的循环也会在边缘处出现裂痕。一次推送超过约 1000 行代码,审查智能体就很难在上下文中全部容纳;你很少能得到 5/5。解决办法与优秀工程师已经使用的方法相同:保持变更的小型化,将大工作拆分成多个 PR。即使在一个整洁、定义良好的循环内部,范围仍然是破坏它的因素。
我的诚实看法
这一切都不是在批评那些推动自主循环的人。他们可能领先,但未必错误。自愈智能体、自动修复 bug、以及能够看到并测试自己工作的系统,其到来速度比大多数人预期的要快。
但“到来“与“为一切做好准备“是两回事。
现实是,大多数优秀产品不仅仅是依靠逻辑构建的。它们需要品味、判断力以及无数个无法被任何规格文档完全捕捉的小决策。
这就是为什么我喜欢这句话:AI 可以复制酱料,但不能创造酱料。
当目标明确时,循环是不可思议的。审查、测试、linting、迁移、基于模板的生成。给它们一个可衡量的目标,它们就能全天候工作。
但当问题变成“感觉对吗?“或“人们真的会想要这个吗?“时,你仍然需要一个人参与到循环中。
所以,不要构建一个巨大的循环并让它为你创造初创公司。围绕工作中无聊的、二进制的部分构建小循环,并把那些需要品味和远见的部分牢牢掌握在自己手中。
这不是在对抗趋势。这是在理解趋势。
关注 @techwith_ram 获取更多此类内容
相似文章
@mvanhorn: https://x.com/mvanhorn/status/2063865685558903149
本文解释了AI编程中'循环'的概念,即开发者编写程序来提示编码代理,而不是手动提示,这一概念由Peter Steinberger和Boris Cherny推广开来,并讨论了这种转变如何代表了AI辅助开发中的新抽象层。
@0xCodez: https://x.com/0xCodez/status/2064374643729773029
一个包含14个步骤的循环工程路线图,指导开发者从手动提示AI编码代理到设计自动化系统,由系统自行处理提示、验证和迭代。
@chamath: https://x.com/chamath/status/2054646394867364143
关于AI代理兴起的详细入门,包括统计数据、故障模式以及五层框架,重点介绍了从聊天机器人到自主任务导向型AI的转变。
@omarsar0: 如何有效运行自主长时编码代理?这是关于代理的最激动人心的讨论之一……
一场关于如何有效运行自主长时编码代理的录播讨论,包含目标设定、模型选择及最佳实践等见解,现已免费提供。
当前完全自主智能体:炒作与现实?
讨论了完全自主AI智能体的炒作与其当前现实局限之间的差距,指出它们仍然经常陷入循环,而人机协作的副驾驶模式在生产中仍是常态。