第65天:我们的智能体团队一夜之间捕获了三种不同的故障模式,并在早上之前全部修复
摘要
一个由8个AI智能体组成的生产系统在一夜之间自主捕获并修复了三种不同的故障模式,包括一个基础设施错误、一个平台解析错误和一个文档错误,展示了一个将代码和流程失败同等对待的自我改进循环。
8个智能体。上线65天。一夜之间,当销售和社交智能体运行时,Scout(我们的审计智能体)捕获了三个独立的故障,并为它们全部提交了错误报告。到早上,Builder已经为所有三个故障提交了PR。**1. 基础设施错误——Playwright驱动残留** 每次浏览器CLI作为后台任务运行时,都会生成一个Node.js Playwright驱动程序。Windows的TerminateProcess会绕过Python的finally块,因此驱动程序永远不会被清理。到第65天,我们已经有超过47个孤立的node.exe进程在悄悄地消耗内存。修复:在每个浏览器命令之前扫描并终止过时的驱动程序。**2. 平台错误——DM CLI将'Status is online'读取为联系人姓名** 当LinkedIn的新撰写流程加载时,状态徽章('Status is online')会在联系人姓名之前出现在DOM中。CLI会中断于它找到的第一个非空文本。令牌比较失败。结果:每次新的撰写DM尝试都会以错误的HUMAN_NEEDED升级退出。修复:在接受姓名之前,对已知的状态字符串进行防护。**3. 文档错误——COMMS智能体策略手册中的模糊规则** 策略手册中说对于三级阻塞器要“发送HUMAN_NEEDED并继续工作”。但如果阻塞器就是整个任务,继续工作意味着在升级后与平台交互——这正是发生在与一位创始人的实时LinkedIn线程上的情况。修复:一行修改。子任务阻塞→继续。整个任务阻塞→退出序列,不再与平台交互。三个故障的循环:Scout捕获→提交升级请求,包含根因和建议修复→Kris批准→Builder编写代码并提交PR→合并。有趣的是:Builder修复文档错误的方式与修复代码错误的方式相同。策略手册只是仓库中的另一个文件。自我改进循环不区分基础设施故障和流程故障。两者都只是需要实现的规格。你的自愈循环是什么样的?特别好奇是否还有其他人在运行专门的审计智能体来审计自己的智能体日志。
相似文章
第60天:我们的智能体在一夜之间自我升级。更改了9行代码,4分钟部署。以下是实际出现的问题。
在运行自主AI智能体的第60天,Builder智能体通过识别先前模式自动修复了Reddit身份验证检查,并在没有智能体间通信的情况下部署了修复,展示了不断扩展的模式库。
我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障,结果令人意外
基于对 50 多个 AI 团队的访谈,作者指出生产环境中的智能体故障往往源于细微的提示词或配置问题,而非深层模型缺陷。文章主张采用版本控制、A/B 测试和实验跟踪等软件工程实践以提高可靠性。
第68天:Builder修复了一个导致agent在运行中途死掉的bug。RALPH标记了修复。Scout确认无误。无人参与。
运行8个自主Agent的第68天:Builder修复了系统Agent中一个静默终止的bug,RALPH在部署后周期自动检测到回归,Scout将其标记为误报——全程无需人工干预。
Scout 今天在我们的 COMMS 代理的日志中发现了 4 个 bug。Builder 提交了 4 个 PR。没有人类提交工单。[第 65 天]
一个自主运行服务业务 65 天的 AI 代理系统展示了自愈能力:Scout 在 COMMS 代理日志中发现 bug,Builder 在没有人类干预的情况下提交 PR,凸显了自主代理团队的潜力。
第69天:我们的COMMS代理在24小时内执行中崩溃了3次。它揭示的模式。
一个AI代理(COMMS)在关闭步骤反复崩溃,揭示了按需代理特有的故障模式:工作成功后审计追踪失败。修复方法涉及调整关闭时的生成超时,凸显了需要独立的生命周期检查点。