自我进化的自动研究工作流程循环(5分钟阅读)

TLDR AI 工具

摘要

Evo 将其自动研究循环移植到了 Anthropic 在 Claude Code 中的动态工作流程上,将编排从上下文记忆转移到确定性 JavaScript,解决了长程指令遵循问题,并实现了自我进化的工作流程。

Evo 将其自动研究编排器移植到了 Anthropic 6 月 2 日发布的 Claude Code 动态工作流程上,将六步循环从模型的上下文记忆中移出,放入由子代理使用新的作用域上下文执行的确定性 JavaScript 中。这一转变通过将方法本身变为代码来解决长程指令遵循问题:阶段、扇出宽度、停止规则、门控和 CLI 调用都被脚本化。模型负责判断,代码负责协调。
查看原文
查看缓存全文

缓存时间: 2026/06/11 00:12

Evo 将其自动研究编排器移植到了 Anthropic 6 月 2 日在 Claude Code 中推出的动态工作流上,将六步循环从模型的上下文内存中移出,放入由子代理在全新作用域上下文中执行的确定性 JavaScript 中。这一转变通过将方法本身变成代码来解决长期指令遵循问题:阶段、扇出宽度、停止规则、门控以及 CLI 调用都通过脚本定义。模型负责判断,代码负责协调。


自进化自动研究工作流循环

本文介绍我们如何将 evo 的自动研究循环移植到工作流上,并使其成为动态的。

6 月 2 日,Anthropic 在 Claude Code 中推出了动态工作流:Claude 会实时编写一个小型 JavaScript 程序,生成并协调子代理。协调工作以代码形式运行;模型负责判断。关键点在于,编排本身不再依赖模型的决策,现在可以被描述为代码。感谢 @trq212 的文章。

evo 是什么

evo 是一个自动研究编排器。你给它一个系统、一个“更好”的定义以及一个预算。它会生成假设,在独立的隔离工作空间中运行每个假设,对其进行评分,并维护一个尝试树——扩展有效的分支,剪除无效的分支——同时审计员会检查每个被接受的变更,以防止优化器操纵指标。它是开源的;支持在 Claude Code、Codex、Cursor 等平台上运行。

为什么我们迁移到工作流

该循环原本是以上下文内方式编排的,即一个长时长的代理运行,持有整个计划:下一步是哪个阶段、启动多少个实验、何时停止。evo 以一种有主见的方式进行自动研究,每一步代理都必须遵循该方法并驱动我们随附的 CLI。在长时间的自动研究运行中,让代理完全遵循所有这些指令很棘手。在长期任务中,提示和指令遵循并不可靠:经过几十轮后,固定规则(运行此阶段、使用此 CLI 命令、去重简报、保持门控严格等)会悄然失效,单个上下文运行的时间越长,其保持能力就越弱。

将循环迁移到动态工作流从根本上解决了这个问题。方法现在就是代码:阶段、扇出宽度、停止规则、门控以及 CLI 调用都是脚本的一部分,具有确定性,在第 1 轮和第 1000 轮上完全一致。遵循不再需要模型去记忆。每一步都是一个全新且有作用域的子代理,只负责一项任务并拥有干净的上下文,因此没有漂移的可能。模型负责判断;代码负责协调。

evo 自动研究工作流运行的内容:一轮循环

优化循环的每一轮都按照相同的六个步骤进行,以代码实现:

  • 导向: 读取实验树:最佳得分、上限、开放前沿。将排名靠前的宽度前沿节点作为本轮父节点。
  • 扫描: 代理并行梳理已评估的节点,找出哪些有效、哪些失效,同时一个聚合代理在整个树中寻找模式。
  • 构思: 当出现停滞时,三个研究代理同时启动:一个外推最佳分支,一个剖析失败原因,一个查阅文献和网络资源。
  • 简报: 一个编写者将扫描结果、模式和想法整合成具体的实验简报,然后进行去重。
  • 扇出: 每个简报一个通道,并行进行。每个通道实现变更,进行预验证(如果操纵指标则修订),运行实验,然后与验证器进行后审计。
  • 收集: 剪除已死的分支,记录笔记,重复直到得分不再提高。

这确实有效,但现在工作流每轮仍以相同的形式运行:相同的阶段(导向、扫描、构思、简报、扇出、收集),相同的步骤,相同的提示,无论运行本身学到了什么。长时间运行会暴露出固定形式无法处理的情况:某类实验需要一个循环中没有的验证步骤,另一个需要注入特定的方法,某个阶段不再产生价值应该被移除。

现在:循环实现自我进化

evo 0.5 使优化循环能够自我进化。第二个工作流与第一个并行运行。两个异步循环位于同一个事件循环上,通过 Promise.all 连接:

  • 优化循环是驱动者,即上述定义的工作流,保持不变
  • 元循环是一个并发的观察者:一个每隔几分钟唤醒的新代理,从外部读取运行情况,并在优化循环运行时对其进行重写

它们共享一个普通对象,即套件:循环运行的步骤、使用的阶段和提示、生效的门控和验证器(以及始终可调整的宽度和停滞等控制旋钮)。优化器每轮读取它;元线程写入它。同一个事件循环,因此写入操作发生在优化器的 await 之间,无需锁,也无需第二个进程。

p

元能做些什么

每次触发时,它会观察实验树、得分、实时日志、GPU 和主机状态(严格只读),并输出四种类型的结果:

  • 套件编辑:真正的杠杆。一次运行会暴露出其特定需求:该类实验需要自己的验证步骤,那类实验需要注入特定方法,另一个步骤成为累赘应该被切除。元会调整工作流以适应需求,注入步骤、移除步骤、重写运行的阶段。修改在下一轮生效。循环的形状成为系统可以根据运行实际需求而改变的数据。
  • 简报提示:更柔和;排入下一轮的简报队列,以引导下一步尝试方向。
  • 停止:当实验无进展时,元不会直接终止它。它会将建议交给一个独立的门控执行器,由其进行验证、中止、诊断和丢弃。检测与行动保持分离;绝不会静默终止。
  • 告警:运行时出现它无法自行修复的问题(例如 GPU 即将故障)会通知人工处理。

我们发现,让一个外部观察者/元代理查看实验并进行微调,在路径修正和问题发现上非常有效。

要点

动态工作流将协调变成代码而非上下文。这带来的好处是:循环成为一等对象,你可以在其运行过程中读取、编辑和推理,而不是一次编写后就希望每一轮都适用的固定套件。循环本身的形式也成为又一个可进化的参数空间。

完全开源

evo 是开源的。你可以通过这里查看我们的动态工作流实现。

相似文章

@unicodef1wn: https://x.com/unicodef1wn/status/2070179071548395916

X AI KOLs Timeline

一篇推文解释了Anthropic在Claude Code中的动态工作流如何让Claude为复杂任务构建自定义框架,通过将工作拆分到不同的智能体来防止智能体惰性、自我偏好偏差和目标漂移等失败模式。内容包含供用户参考的实用示例和模式。

AutoResearch AI:迈向AI驱动的科学发现研究自动化

Hugging Face Daily Papers

一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。