@ashpreetbedi: https://x.com/ashpreetbedi/status/2053885390717890757

X AI KOLs Timeline 2026/05/11 17:10 产品

ai-agents auto-improvement claude-code developer-tools agent-lifecycle software-engineering

摘要

Ashpreet Bedi shares a new agent platform designed for auto-improvement, where coding agents like Claude Code can autonomously create, test, and refine other agents using a unified data and API stack.

https://t.co/qtZeFbPfNH

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 04:49

自动改进的软件编码代理改变了我们构建软件的方式。现在它们正在改变我们改进软件的方式。今天我将分享一个由编码代理自行构建、运行和完善的代理平台。整个代理开发生命周期由五个提示覆盖：

创建。 搭建新代理。
改进。 根据规范强化现有代理。
扩展。 为现有代理添加新功能。
爬坡（Hill Climb）。 运行评估套件，诊断失败情况，修复范围内的错误。
审查。 扫描仓库，检查文档、代码和配置之间的偏差。

“改进 → 爬坡”循环以极少的人工监督递归地改进我的代理。手动完成这项工作难以想象。顺便说一下，这种自动改进循环之所以可行，是因为环境是为它设计的。代理代码、追踪记录、日志、评估套件和实时软件都位于同一位置，因此编码代理可以端到端地进行操作。

它有效，因为我们控制了整个技术栈

大多数软件无法自动改进，因为其输入和输出分散在不同的工具中。为了运行自动改进循环，编码代理必须从三个不同工具中拼凑数据，每个工具都有自己的认证方式和操作习惯。理论上可行。实际上，摩擦太大。

我的代码库是专门为自动改进设计的。例如，Claude Code 可以测试代理，然后通过读取会话、追踪记录和日志来判断通过或不通过。如果代理失败，它会编辑代理并再次运行。以下三点使这成为可能：

每个操作都暴露为 API。 运行代理、读取会话、运行评估。每个关键操作都可以使用 cURL 或 bash 运行。
数据共位。 会话和追踪记录存储在我们的 Postgres 数据库中。编码代理可以在不离开其环境的情况下触发运行并读取输出。
日志高于一切。 整个平台在本地通过 Docker 运行。编码代理读取实时日志并根据需要进行更新。测试 → 审查循环约为 ~5 秒。日志是解锁一切的实时反馈回路。

代理平台是第一类动作、数据和迭代工具足够接近的软件，使得编码代理可以进行端到端测试、进行代码更改并再次测试，直到代理得到改进。这意味着托管循环的平台是循环首先改进的东西。

代理开发生命周期

接下来我将展示 Claude Code 如何运行我的代理平台。

1. 创建代理

要创建新代理，我打开 Claude Code 并输入：

在新分支中运行 create-new-agent.md。

Claude 首先询问一些关于代理应该做什么以及需要哪些工具的问题。然后它通过 MCP 搜索 Agno 文档以找到合适的工具包，生成代理文件，在 app/main.py 中注册它，重新启动容器，并通过 cURL 进行冒烟测试。从提示到代理只需 5-10 分钟。

因为平台处理了一切，所以我构建了以前从未考虑过的代理。总结隔夜 Slack 消息的代理、起草我的每周更新的代理、突出显示仓库中重要问题的代理。这些都不会在多天的项目中存活下来。它们都可以融入咖啡休息时间。

2. 改进代理

要改进现有代理，我输入：

在 code-search 代理上运行 improve-agent.md。

Claude 读取代理的 INSTRUCTIONS 并从中推导出 8-12 个探测。有些是黄金路径。有些是边缘情况。有些是工具选择。还加入了一些对抗性的：提示注入、格式错误的输入、试图让代理偏离目标的操作。它通过 cURL 对实时容器运行每个探测。读取响应。从容器日志中读取工具调用。根据 INSTRUCTIONS 实际承诺的内容判断通过或不通过。对于每次失败，它会选择一个杠杆。收紧规则。添加规则。更换工具。增加 num_history_runs。无论适合哪种失败模式。它编辑 agents/.py，热重载，并仅重新运行失败的探测。然后它迭代。最多五轮。如果全部通过则提前停止。除了启动任务外，我不需要任何输入。

这以前需要花一天时间手动点击各种东西，现在完全自动化了。

3. 扩展代理

要为现有代理添加功能，我输入：

在 code-search 代理上运行 extend-agent.md。

扩展功能由我来驾驶。我描述一个更改：添加工具、优化提示、修复错误。Claude 执行。加载了 Agno 文档 MCP，因此工具包研究基于真实 API。Claude 进行更改。运行冒烟测试。每次迭代都是一小步，经过验证的步骤。更改保持精确并在隔离状态下进行测试。

4. 爬坡

随着时间的推移，我们收集了大量的评估，手动修复失败将是可惜的。我只需输入：

运行 eval-and-improve.md。

爬坡运行评估套件，诊断每个失败，并修复范围内的错误。失败类型映射到修复位置：INSTRUCTIONS 中缺少规则、幻觉、错误的工具触发、过度指定的标准。对于每个失败，Claude 选择正确的杠杆，编辑，并仅重新运行失败的案例。一旦所有情况都变为绿色，它会重新运行整个套件以捕获回归。

评估套件包含两个文件。evals/cases.py 声明案例。每个案例是一个输入加上一个标准（正确响应的样子）以及可选的预期工具调用。基于 Agno 的 AgentAsJudgeEval 和 ReliabilityEval 构建。改进捕获分布外失败。爬坡确保分布内案例继续通过。两者配合得非常出色。

5. 审查

由于仓库主要由编码代理管理，因此变化很快。为了更新所有内容，我输入：

运行 review-and-improve.md。

Claude 扫描整个仓库，检查文档、代码和配置之间的偏差。磁盘上的每个代理文件都应在 app/main.py 中注册。代码读取的每个环境变量都应在 example.env 和 AGENTS.md 中。markdown 文档中的每个路径都应仍然存在。每个脚本都应如其所声称的那样工作。机械偏差就地自动修复：重命名的文件、example.env 中缺少的条目、架构图中缺失的新代理。更大的问题则标记并建议下一步操作。最好在发布前或重构后运行。对于人类来说繁琐的工作，对于可以读取仓库中每个文件的编码代理来说却微不足道。文档与代码之间的偏差一直是生产软件的负担。现在它的成本为零。

为什么是代理平台？

代理平台是这种模式的理想试验场。

绿地。 代理平台相对较新，可以从一开始就为编码代理设计。
工作流清晰。 我们知道如何改进代理：运行它、读取日志、评估响应、编辑、再次运行。
循环确实有用。 对于常规软件，优化 API 端点并没有太大意义。对于代理，每一轮改进都是真实的、可测量的，并且增加了价值。

设置好平台后，你可以在上面构建任何代理：使用创建工作流从想法到代理，使用改进工作流强化代理，使用扩展工作流添加新功能，使用评估锁定它们，然后针对它们进行爬坡。使用审查和改进工作流保持整个仓库同步。手动完成这几乎是不可能的。

我的自动改进代理平台

这是我的自动改进代理平台的链接：agent-platform-railway 。

这是一个代理平台的起始代码库，你可以使用 docker 在本地运行，也可以在 Railway 上运行。提示在 docs/ 文件夹中。克隆、配置，10 分钟内你就可以运行代理。遵循 README 进行完整设置指南，并参考 Agno 文档。

自动改进的软件

我已经运行这个循环几周了，它仍然让我惊讶。代理指令缩短了一半句子。文档字符串与代码同步。每次运行时平台都会更干净一些。我可以看到一个所有软件都像这样工作的世界。一个编码代理管理你的平台端到端，修复小到你不会优先考虑的问题。

感谢阅读！

Ashpreet

使用 Agno 构建 ❤️

@ashpreetbedi: https://x.com/ashpreetbedi/status/2053885390717890757

自动改进的软件编码代理改变了我们构建软件的方式。现在它们正在改变我们改进软件的方式。今天我将分享一个由编码代理自行构建、运行和完善的代理平台。整个代理开发生命周期由五个提示覆盖：

它有效，因为我们控制了整个技术栈

代理开发生命周期

1. 创建代理

2. 改进代理

3. 扩展代理

4. 爬坡

5. 审查

为什么是代理平台？

我的自动改进代理平台

自动改进的软件

相似文章

@ashwingop: https://x.com/ashwingop/status/2052777467732283817

AI 代理依然拉胯，于是我自己造了一个

The Autonomous Stack

Claude 推出自我改进型智能体（5 分钟阅读）

@hwchase17: https://x.com/hwchase17/status/2053157547985834227

提交意见反馈