我如何不再监控Claude Code和Codex长达数小时的运行:规划、Git检查点以及代理外部的测试闸门

Reddit r/AI_Agents 工具

摘要

作者分享了在长时间、多步骤任务中运行Claude Code和Codex无需持续监控的技巧,使用外部测试闸门、每个任务的Git检查点以及基于DAG的计划,避免阻塞任务导致整个运行停滞,并将这些方法打包成一个开源工具。

我在一台隔离的机器上运行Claude Code和Codex来处理长时间、多步骤的任务,反复遇到同样几个问题: * **谎报测试结果:** 代理报告任务完成,但测试实际上并未通过,并归咎于“已有的bug”。 * **压缩导致的健忘:** 上下文填满后,压缩导致代理忘记三步骤前所做之事,浪费token并造成后续bug。 * **单个任务阻塞导致整个运行停滞:** 我只是想让代理在我不干预的情况下运行,但又不想完全失去控制。针对每个问题,我的做法如下: * **谎报测试结果:** 构建和测试命令在worker外部运行,因此它无法声称成功并跳过检查。失败时,它会回滚到Git检查点并携带失败上下文重试。 * **压缩导致的健忘:** 每个任务都在新的worker中运行,因此不会经历漫长的压缩周期。worker在需要时仍可检查先前的工作。 * **任务阻塞:** 计划是DAG,因此一个阻塞不会停止所有任务。它会继续处理非下游任务,并在Telegram中向我发送一个聚焦的问题。 * **保持控制:** Claude Code起草计划,Codex评审,我在运行前批准。每个任务前都有Git检查点,整个执行轨迹(计划、提示、标准输出/标准错误、尝试次数、检查点、经验教训)都保存在磁盘上。 我将这些打包成一个开源工具,如果有用我会在评论中发链接,但我更想知道社区里其他人是如何处理“代理无法正确评估自身工作”这个问题的。将测试闸门放在worker外部是唯一对我有效的方法。你们是怎么做的?
查看原文

相似文章