我构建了一个本地控制系统,用于处理代理故障、修复、评估和门控,以使类似自动研究的自我改进循环在实际代理代码库中生效
摘要
构建了一个本地控制系统来管理代理改进循环,捕获跟踪,发现重复故障,使用Codex/Claude Code起草修复方案,并仅在通过检查和评估后应用更改。
我一直在试验面向代理的自动研究风格循环:运行代理,检查跟踪,找出问题所在,提出修复方案,重复。这个想法很好。编码代理已经能够查看跟踪、发现故障模式并提出修复方案。但我越尝试在实际代理代码库中使用它,遇到的挑战就越多。真正的困难在于围绕循环建立一个系统:
* 哪些故障实际上在不同运行中重复出现
* 每个问题有哪些证据支持
* 提出了哪些修复方案
* 运行了哪些检查和评估
* 哪些通过了,哪些失败了,哪些回退了
* 哪些允许自动更改
* 哪些需要人工审查
因此,我围绕代理改进循环构建了一个完全本地的控制系统。它捕获代理运行,发现重复故障,将其转化为有证据支持的问题,让Codex/Claude Code起草修复方案,并仅在通过检查和评估后通过门控应用更改。工作流程是:
1. 捕获代理运行/跟踪
2. 发现跨运行重复的故障
3. 将其转化为可审查的问题并提供证据
4. 让Codex、Claude Code起草修复方案
5. 重新运行失败的跟踪,运行确定性检查,比较评估结果
6. 仅当通过门控时才应用修复,否则暂停以供审查
默认情况下所有内容都是本地的:SQLite数据库、仪表盘、跟踪、问题、提案、评估。对于分析和修复起草步骤,它可以使用您已有的编码代理CLI,因此无需单独托管服务或额外的模型API密钥。自我改进循环在理论上很酷,但除非您围绕它们构建基础设施,否则很难迁移到生产环境。
相似文章
@benhylak:我们构建了第一个本地调试智能体的合理方法。你可以查看你的追踪记录。codex/claude code 也可以。这允许……
一个新的开源工具可以通过查看追踪记录实现AI智能体的本地调试,允许使用codex和Claude code等工具自动编写评估并进行测试。
构建自修复智能体循环(39分钟阅读)
本文介绍了一种使用OpenAI的Codex构建自修复智能体循环的方法,智能体通过结构化反馈循环迭代地审查、修复和验证输出,并提供了一个修复过时API文档的实例。
我从零重建了一个Claude Code风格的编程代理——整个代理循环只有6行代码。20章,约5000行代码,无框架,也支持本地模型
一位开发者分享了一个20章的教程,从头重建了一个Claude Code风格的编程代理,展示了整个代理循环(约6行代码),并支持本地模型和多种LLM API。
我为 Claude Code、Codex 和 Gemini 构建了一个本地 CLI,利用现有的认证机制来互相审查彼此的 GitHub PR
作者介绍了 `coding-review-agent-loop`,这是一个开源的本地 CLI 工具,它协调多个编码代理(Claude Code、Codex、Gemini)使用现有的本地身份验证相互审查彼此的 GitHub PR,从而避免额外的 API 成本。
我构建了一个具有赛博朋克灵魂的本地优先自主编程代理——Eve Agent V2 Unleashed(开源)
Eve Agent V2 Unleashed 是一个开源自主编程代理,通过 Ollama 在本地运行,具有 40 轮工具循环、112 个子代理和可选的云端扩展功能。它可以在无需人工干预的情况下计划、编写、测试和验证代码,快速启动只需不到 5 分钟。