@aiDotEngineer: Most agents die after a few seconds. @AnthropicAI's workshop shows how to build agents that run for hours. full 75-min …

X AI KOLs Following 2026/05/23 21:15 新闻

anthropic ai-agents long-running-agents context-management scaffolding claude

摘要

Anthropic 应用AI团队在研讨会上分享了如何构建能持续运行数小时的智能体，核心在于上下文管理、规划与自我验证，以及模型与配套工具的共同演进。

Most agents die after a few seconds. @AnthropicAI's workshop shows how to build agents that run for hours. full 75-min session with Ash Prabaker & Andrew Wilson. https://t.co/nHzXiMussk https://t.co/9O0fQNx5GH

查看原文

查看缓存全文

缓存时间: 2026/05/25 12:37

Most agents die after a few seconds. @AnthropicAI’s workshop shows how to build agents that run for hours. full 75-min session with Ash Prabaker & Andrew Wilson.

https://t.co/nHzXiMussk https://t.co/9O0fQNx5GH

TL;DR

Anthropic 的应用 AI 团队分享了如何构建能持续运行 5–6 小时甚至更久的智能体（Agent），核心挑战包括上下文管理、规划与自我验证，并通过配套工具（Claude Code/Agent SDK）的迭代与模型升级共同演进，实现了从“几分钟崩溃”到“连续工作数天”的突破。

为什么智能体难以长时间运行？

当智能体被要求执行复杂编码任务（例如“写一个浏览器”或“克隆 Slack”）时，往往在几秒到几分钟内就会失败。原因可归纳为三类：

上下文有限：每次新会话如同失忆，需要记忆组件；长时间运行会导致“上下文腐化”（连贯性下降）；模型在接近上下文窗口末尾时会出现“上下文焦虑”，急于完成任务。
规划不足：模型开箱即用不擅长规划，可能尝试一次搞定所有事、只完成一半功能，或在耗尽上下文时留下半成品。
自我验证困难：模型有“迎合”倾向，会误判自己的输出（例如认为按钮功能已实现，实际后端并不存在）。

解决思路分两条：一是改进模型本身（如通过更强的基础模型延长无工具辅助的运行时间）；二是优化“配套工具”（scaffolding），即围绕模型的脚手架。

历史回顾：从“勉强跑 20 分钟”到“持续运行数天”

史前时期（约一年前）

Sonnet 3.5 是第一个展现代码潜力（能验证并迭代自己构建的内容）的模型。
同时推出 Computer Use（点击、截图、测试代码）和 MCP 规范（工具调用）。

Claude Code 阶段（2025 年 2 月）

发布 Sonnet 3.7，在 Swebench 上达到顶尖水平。
Claude Code 以研究预览版发布，目标是通过开发者使用方式指导模型改进。
核心思路：模型与配套工具共同演进。

工具与模型的协同改进（2025 年中）

Opus 4 / Sonnet 4（约 2025 年 5 月）：模型在管理自身上下文和完成任务方面显著提升，不再出现奖励黑客等问题。
Agent SDK（原 Claude Code SDK） 发布，包含核心智能体循环：Claude 决定下一步、调用工具（可来自 MCP 服务器）、委托子智能体，并引入 claude.md、加载的技能、斜杠命令等上下文。
同时引入 Ralph Loop 技术（由 Jeffrey Huntley 提出）：将 prompt 分解为功能列表，每次用全新上下文窗口处理一个任务，迭代直到完成。Claude Code 的版本在单个会话中运行，依赖压缩而非新建上下文。

2025 年中后期：更强模型与更多配套工具

Sonnet 4.5 增强上下文感知，能追踪 token 消耗并主动管理上下文。
Claude Code 2.0 引入检查点（checkpoints），可回退到会话早期状态。
Haiku 4.5 与 Opus 4.5 系列大幅降低成本，允许运行多个子智能体。Opus 4.5 在规划上极为出色（适合作为规划智能体），Sonnet 4.5 作为执行主力。
Skills（技能） 采用“渐进式披露”：只加载技能标题，实例化时才加载完整内容，避免提前占用上下文。
程序化工具调用：通过编写代码一次运行一系列工具调用，只取回最终结果，减少上下文占用。

长时间运行智能体的第一篇博客文章（约 2025 年 11 月）

配套工具将模糊的用户指令（如“创建 Slack 克隆”）分解为持久化产物：
- 功能列表（featurelist.json，模型不易覆盖 JSON）
- 进度文件
- Git 仓库初始化
- 启动脚本
- 功能完成标志（是否通过所有测试）
循环流程：
1. 全新上下文窗口 → 获取当前状态（工作目录、进度文件）
2. 冒烟测试 / 启动脚本（避免每次重新探索服务器）
3. 选择一个未通过测试的功能
4. 仅实现该功能并执行实际测试（类似人类用 Puppeteer）
5. 若通过则提交 Git commit，更新状态为“通过”
6. 继续循环直到所有功能完成

最新进展：Opus 4.6 / Sonnet 4.6 与 Agent Teams

Sonnet 4.6 以 Sonnet 的价格提供 Opus 级别的智能，成为 Claude Code 的主力。
Opus 4.6 高度“智能体化”，在简单配套工具下的运行时间从约 4 小时跃升至 12 小时。
Agent Teams 允许用户搭建自定义智能体团队，子智能体之间可直接通信，无需每步都向主智能体汇报。同时引入服务端压缩，进一步优化上下文。

核心经验总结

模型与配套工具必须共同演进。每次模型发布时，配套工具也会同步更新。
Ralph Loop 的价值在于可预测的失败比不可预测的成功好，通过分区上下文与迭代完成复杂任务。
**持久化产物（如 featurelist.json）**比 markdown 更可靠，减少模型覆盖文件的风险。
测试与验证循环是确保长时间运行稳定性的关键，尤其是让模型能自判断输出而非迎合用户。

Source: YouTube 视频：@aiDotEngineer: Most agents die after a few seconds. @AnthropicAI’s workshop shows how to build agents that run for hours. full 75-min …

@aiDotEngineer: Most agents die after a few seconds. @AnthropicAI's workshop shows how to build agents that run for hours. full 75-min …

TL;DR

为什么智能体难以长时间运行？

历史回顾：从“勉强跑 20 分钟”到“持续运行数天”

史前时期（约一年前）

Claude Code 阶段（2025 年 2 月）

工具与模型的协同改进（2025 年中）

2025 年中后期：更强模型与更多配套工具

长时间运行智能体的第一篇博客文章（约 2025 年 11 月）

最新进展：Opus 4.6 / Sonnet 4.6 与 Agent Teams

核心经验总结

相似文章

@seclink: https://x.com/seclink/status/2057086514975404108

如何让代理运行数小时，以及哪些架构真正对代理友好？#深度探讨 #氛围程序员问题

@aiDotEngineer：真正能投入生产的多智能体架构 https://youtube.com/watch?v=ow1we5PzK-o… 实际可用的多智能体编……

@DanKornas: 大多数智能体系统能在单次会话中完成令人印象深刻的工作。难点在于让它们长期记住、反思并持续改进……

@zodchiii：三位Anthropic工程师花了16分钟讨论AI智能体在生产中真正成功的要素。如果这些人…

提交意见反馈