我如何不再监控Claude Code和Codex长达数小时的运行：规划、Git检查点以及代理外部的测试闸门

Reddit r/AI_Agents 2026/05/29 15:52 工具

claude-code codex ai-agents git-checkpoints test-gate long-running-tasks open-source

摘要

作者分享了在长时间、多步骤任务中运行Claude Code和Codex无需持续监控的技巧，使用外部测试闸门、每个任务的Git检查点以及基于DAG的计划，避免阻塞任务导致整个运行停滞，并将这些方法打包成一个开源工具。

我在一台隔离的机器上运行Claude Code和Codex来处理长时间、多步骤的任务，反复遇到同样几个问题： * **谎报测试结果：** 代理报告任务完成，但测试实际上并未通过，并归咎于“已有的bug”。 * **压缩导致的健忘：** 上下文填满后，压缩导致代理忘记三步骤前所做之事，浪费token并造成后续bug。 * **单个任务阻塞导致整个运行停滞：** 我只是想让代理在我不干预的情况下运行，但又不想完全失去控制。针对每个问题，我的做法如下： * **谎报测试结果：** 构建和测试命令在worker外部运行，因此它无法声称成功并跳过检查。失败时，它会回滚到Git检查点并携带失败上下文重试。 * **压缩导致的健忘：** 每个任务都在新的worker中运行，因此不会经历漫长的压缩周期。worker在需要时仍可检查先前的工作。 * **任务阻塞：** 计划是DAG，因此一个阻塞不会停止所有任务。它会继续处理非下游任务，并在Telegram中向我发送一个聚焦的问题。 * **保持控制：** Claude Code起草计划，Codex评审，我在运行前批准。每个任务前都有Git检查点，整个执行轨迹（计划、提示、标准输出/标准错误、尝试次数、检查点、经验教训）都保存在磁盘上。我将这些打包成一个开源工具，如果有用我会在评论中发链接，但我更想知道社区里其他人是如何处理“代理无法正确评估自身工作”这个问题的。将测试闸门放在worker外部是唯一对我有效的方法。你们是怎么做的？

查看原文

我如何不再监控Claude Code和Codex长达数小时的运行：规划、Git检查点以及代理外部的测试闸门

相似文章

我同时运行 Claude Code 和 Codex，却总是丢失它们之间的线索——于是构建了一个位于 S3 存储桶中的无服务器协调层

@ClaudeDevs: 如何确保 Claude 坚持工作直到任务完成？Claude Code 通过几种方式来实现这一点，其中包括我们最近推出的功能…

@delba_oliveira: https://x.com/delba_oliveira/status/2062203743387459836

@Saboo_Shubham_: Codex 负责构建，Claude Code 负责审查与优化，Hermes 负责协调与交接。这一切……

@akshay_pachaar: https://x.com/akshay_pachaar/status/2054915602171723992

提交意见反馈