@ashpreetbedi: https://x.com/ashpreetbedi/status/2053885390717890757

X AI KOLs Timeline 产品

摘要

Ashpreet Bedi shares a new agent platform designed for auto-improvement, where coding agents like Claude Code can autonomously create, test, and refine other agents using a unified data and API stack.

https://t.co/qtZeFbPfNH
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 04:49

自动改进的软件编码代理改变了我们构建软件的方式。现在它们正在改变我们改进软件的方式。今天我将分享一个由编码代理自行构建、运行和完善的代理平台。整个代理开发生命周期由五个提示覆盖:

  • 创建。 搭建新代理。
  • 改进。 根据规范强化现有代理。
  • 扩展。 为现有代理添加新功能。
  • 爬坡(Hill Climb)。 运行评估套件,诊断失败情况,修复范围内的错误。
  • 审查。 扫描仓库,检查文档、代码和配置之间的偏差。

“改进 → 爬坡”循环以极少的人工监督递归地改进我的代理。手动完成这项工作难以想象。顺便说一下,这种自动改进循环之所以可行,是因为环境是为它设计的。代理代码、追踪记录、日志、评估套件和实时软件都位于同一位置,因此编码代理可以端到端地进行操作。

它有效,因为我们控制了整个技术栈

大多数软件无法自动改进,因为其输入和输出分散在不同的工具中。为了运行自动改进循环,编码代理必须从三个不同工具中拼凑数据,每个工具都有自己的认证方式和操作习惯。理论上可行。实际上,摩擦太大。

我的代码库是专门为自动改进设计的。例如,Claude Code 可以测试代理,然后通过读取会话、追踪记录和日志来判断通过或不通过。如果代理失败,它会编辑代理并再次运行。以下三点使这成为可能:

  • 每个操作都暴露为 API。 运行代理、读取会话、运行评估。每个关键操作都可以使用 cURL 或 bash 运行。
  • 数据共位。 会话和追踪记录存储在我们的 Postgres 数据库中。编码代理可以在不离开其环境的情况下触发运行并读取输出。
  • 日志高于一切。 整个平台在本地通过 Docker 运行。编码代理读取实时日志并根据需要进行更新。测试 → 审查循环约为 ~5 秒。日志是解锁一切的实时反馈回路。

代理平台是第一类动作、数据和迭代工具足够接近的软件,使得编码代理可以进行端到端测试、进行代码更改并再次测试,直到代理得到改进。这意味着托管循环的平台是循环首先改进的东西。

代理开发生命周期

接下来我将展示 Claude Code 如何运行我的代理平台。

1. 创建代理

要创建新代理,我打开 Claude Code 并输入:

在新分支中运行 create-new-agent.md。

Claude 首先询问一些关于代理应该做什么以及需要哪些工具的问题。然后它通过 MCP 搜索 Agno 文档以找到合适的工具包,生成代理文件,在 app/main.py 中注册它,重新启动容器,并通过 cURL 进行冒烟测试。从提示到代理只需 5-10 分钟。

因为平台处理了一切,所以我构建了以前从未考虑过的代理。总结隔夜 Slack 消息的代理、起草我的每周更新的代理、突出显示仓库中重要问题的代理。这些都不会在多天的项目中存活下来。它们都可以融入咖啡休息时间。

2. 改进代理

要改进现有代理,我输入:

在 code-search 代理上运行 improve-agent.md。

Claude 读取代理的 INSTRUCTIONS 并从中推导出 8-12 个探测。有些是黄金路径。有些是边缘情况。有些是工具选择。还加入了一些对抗性的:提示注入、格式错误的输入、试图让代理偏离目标的操作。它通过 cURL 对实时容器运行每个探测。读取响应。从容器日志中读取工具调用。根据 INSTRUCTIONS 实际承诺的内容判断通过或不通过。对于每次失败,它会选择一个杠杆。收紧规则。添加规则。更换工具。增加 num_history_runs。无论适合哪种失败模式。它编辑 agents/.py,热重载,并仅重新运行失败的探测。然后它迭代。最多五轮。如果全部通过则提前停止。除了启动任务外,我不需要任何输入。

这以前需要花一天时间手动点击各种东西,现在完全自动化了。

3. 扩展代理

要为现有代理添加功能,我输入:

在 code-search 代理上运行 extend-agent.md。

扩展功能由我来驾驶。我描述一个更改:添加工具、优化提示、修复错误。Claude 执行。加载了 Agno 文档 MCP,因此工具包研究基于真实 API。Claude 进行更改。运行冒烟测试。每次迭代都是一小步,经过验证的步骤。更改保持精确并在隔离状态下进行测试。

4. 爬坡

随着时间的推移,我们收集了大量的评估,手动修复失败将是可惜的。我只需输入:

运行 eval-and-improve.md。

爬坡运行评估套件,诊断每个失败,并修复范围内的错误。失败类型映射到修复位置:INSTRUCTIONS 中缺少规则、幻觉、错误的工具触发、过度指定的标准。对于每个失败,Claude 选择正确的杠杆,编辑,并仅重新运行失败的案例。一旦所有情况都变为绿色,它会重新运行整个套件以捕获回归。

评估套件包含两个文件。evals/cases.py 声明案例。每个案例是一个输入加上一个标准(正确响应的样子)以及可选的预期工具调用。基于 Agno 的 AgentAsJudgeEval 和 ReliabilityEval 构建。改进捕获分布外失败。爬坡确保分布内案例继续通过。两者配合得非常出色。

5. 审查

由于仓库主要由编码代理管理,因此变化很快。为了更新所有内容,我输入:

运行 review-and-improve.md。

Claude 扫描整个仓库,检查文档、代码和配置之间的偏差。磁盘上的每个代理文件都应在 app/main.py 中注册。代码读取的每个环境变量都应在 example.env 和 AGENTS.md 中。markdown 文档中的每个路径都应仍然存在。每个脚本都应如其所声称的那样工作。机械偏差就地自动修复:重命名的文件、example.env 中缺少的条目、架构图中缺失的新代理。更大的问题则标记并建议下一步操作。最好在发布前或重构后运行。对于人类来说繁琐的工作,对于可以读取仓库中每个文件的编码代理来说却微不足道。文档与代码之间的偏差一直是生产软件的负担。现在它的成本为零。

为什么是代理平台?

代理平台是这种模式的理想试验场。

  • 绿地。 代理平台相对较新,可以从一开始就为编码代理设计。
  • 工作流清晰。 我们知道如何改进代理:运行它、读取日志、评估响应、编辑、再次运行。
  • 循环确实有用。 对于常规软件,优化 API 端点并没有太大意义。对于代理,每一轮改进都是真实的、可测量的,并且增加了价值。

设置好平台后,你可以在上面构建任何代理:使用创建工作流从想法到代理,使用改进工作流强化代理,使用扩展工作流添加新功能,使用评估锁定它们,然后针对它们进行爬坡。使用审查和改进工作流保持整个仓库同步。手动完成这几乎是不可能的。

我的自动改进代理平台

这是我的自动改进代理平台的链接:agent-platform-railway

这是一个代理平台的起始代码库,你可以使用 docker 在本地运行,也可以在 Railway 上运行。提示在 docs/ 文件夹中。克隆、配置,10 分钟内你就可以运行代理。遵循 README 进行完整设置指南,并参考 Agno 文档。

自动改进的软件

我已经运行这个循环几周了,它仍然让我惊讶。代理指令缩短了一半句子。文档字符串与代码同步。每次运行时平台都会更干净一些。我可以看到一个所有软件都像这样工作的世界。一个编码代理管理你的平台端到端,修复小到你不会优先考虑的问题。

感谢阅读!

Ashpreet

使用 Agno 构建 ❤️

相似文章

@ashwingop: https://x.com/ashwingop/status/2052777467732283817

X AI KOLs Timeline

对Claude的“托管代理”(Managed Agents)的分析,将其视为下一代AI基础设施层——“公司大脑”(Company Brain)的先兆。这是一个运营状态层,使代理和应用能够基于共享的公司上下文行动,与更简单的知识库或基于Markdown的原型形成对比。

The Autonomous Stack

Product Hunt

一套面向生产环境的架构框架,用于构建基于 Claude 的自主智能体,已在 Product Hunt 发布。