@aiDotEngineer: Most agents die after a few seconds. @AnthropicAI's workshop shows how to build agents that run for hours. full 75-min …
摘要
Anthropic 应用AI团队在研讨会上分享了如何构建能持续运行数小时的智能体,核心在于上下文管理、规划与自我验证,以及模型与配套工具的共同演进。
查看缓存全文
缓存时间: 2026/05/25 12:37
Most agents die after a few seconds. @AnthropicAI’s workshop shows how to build agents that run for hours. full 75-min session with Ash Prabaker & Andrew Wilson.
https://t.co/nHzXiMussk https://t.co/9O0fQNx5GH
TL;DR
Anthropic 的应用 AI 团队分享了如何构建能持续运行 5–6 小时甚至更久的智能体(Agent),核心挑战包括上下文管理、规划与自我验证,并通过配套工具(Claude Code/Agent SDK)的迭代与模型升级共同演进,实现了从“几分钟崩溃”到“连续工作数天”的突破。
为什么智能体难以长时间运行?
当智能体被要求执行复杂编码任务(例如“写一个浏览器”或“克隆 Slack”)时,往往在几秒到几分钟内就会失败。原因可归纳为三类:
- 上下文有限:每次新会话如同失忆,需要记忆组件;长时间运行会导致“上下文腐化”(连贯性下降);模型在接近上下文窗口末尾时会出现“上下文焦虑”,急于完成任务。
- 规划不足:模型开箱即用不擅长规划,可能尝试一次搞定所有事、只完成一半功能,或在耗尽上下文时留下半成品。
- 自我验证困难:模型有“迎合”倾向,会误判自己的输出(例如认为按钮功能已实现,实际后端并不存在)。
解决思路分两条:一是改进模型本身(如通过更强的基础模型延长无工具辅助的运行时间);二是优化“配套工具”(scaffolding),即围绕模型的脚手架。
历史回顾:从“勉强跑 20 分钟”到“持续运行数天”
史前时期(约一年前)
- Sonnet 3.5 是第一个展现代码潜力(能验证并迭代自己构建的内容)的模型。
- 同时推出 Computer Use(点击、截图、测试代码)和 MCP 规范(工具调用)。
Claude Code 阶段(2025 年 2 月)
- 发布 Sonnet 3.7,在 Swebench 上达到顶尖水平。
- Claude Code 以研究预览版发布,目标是通过开发者使用方式指导模型改进。
- 核心思路:模型与配套工具共同演进。
工具与模型的协同改进(2025 年中)
- Opus 4 / Sonnet 4(约 2025 年 5 月):模型在管理自身上下文和完成任务方面显著提升,不再出现奖励黑客等问题。
- Agent SDK(原 Claude Code SDK) 发布,包含核心智能体循环:Claude 决定下一步、调用工具(可来自 MCP 服务器)、委托子智能体,并引入
claude.md、加载的技能、斜杠命令等上下文。 - 同时引入 Ralph Loop 技术(由 Jeffrey Huntley 提出):将 prompt 分解为功能列表,每次用全新上下文窗口处理一个任务,迭代直到完成。Claude Code 的版本在单个会话中运行,依赖压缩而非新建上下文。
2025 年中后期:更强模型与更多配套工具
- Sonnet 4.5 增强上下文感知,能追踪 token 消耗并主动管理上下文。
- Claude Code 2.0 引入检查点(checkpoints),可回退到会话早期状态。
- Haiku 4.5 与 Opus 4.5 系列大幅降低成本,允许运行多个子智能体。Opus 4.5 在规划上极为出色(适合作为规划智能体),Sonnet 4.5 作为执行主力。
- Skills(技能) 采用“渐进式披露”:只加载技能标题,实例化时才加载完整内容,避免提前占用上下文。
- 程序化工具调用:通过编写代码一次运行一系列工具调用,只取回最终结果,减少上下文占用。
长时间运行智能体的第一篇博客文章(约 2025 年 11 月)
- 配套工具将模糊的用户指令(如“创建 Slack 克隆”)分解为持久化产物:
- 功能列表(
featurelist.json,模型不易覆盖 JSON) - 进度文件
- Git 仓库初始化
- 启动脚本
- 功能完成标志(是否通过所有测试)
- 功能列表(
- 循环流程:
- 全新上下文窗口 → 获取当前状态(工作目录、进度文件)
- 冒烟测试 / 启动脚本(避免每次重新探索服务器)
- 选择一个未通过测试的功能
- 仅实现该功能并执行实际测试(类似人类用 Puppeteer)
- 若通过则提交 Git commit,更新状态为“通过”
- 继续循环直到所有功能完成
最新进展:Opus 4.6 / Sonnet 4.6 与 Agent Teams
- Sonnet 4.6 以 Sonnet 的价格提供 Opus 级别的智能,成为 Claude Code 的主力。
- Opus 4.6 高度“智能体化”,在简单配套工具下的运行时间从约 4 小时跃升至 12 小时。
- Agent Teams 允许用户搭建自定义智能体团队,子智能体之间可直接通信,无需每步都向主智能体汇报。同时引入服务端压缩,进一步优化上下文。
核心经验总结
- 模型与配套工具必须共同演进。每次模型发布时,配套工具也会同步更新。
- Ralph Loop 的价值在于可预测的失败比不可预测的成功好,通过分区上下文与迭代完成复杂任务。
- **持久化产物(如 featurelist.json)**比 markdown 更可靠,减少模型覆盖文件的风险。
- 测试与验证循环是确保长时间运行稳定性的关键,尤其是让模型能自判断输出而非迎合用户。
相似文章
@seclink: https://x.com/seclink/status/2057086514975404108
Anthropic工程师公开了长时AI智能体的开发经验,包括多角色分工、独立评估器等方法,使AI能在3-5小时内自动生成完整应用,连续运行能力提升12倍。
如何让代理运行数小时,以及哪些架构真正对代理友好?#深度探讨 #氛围程序员问题
作者探讨了AI编码代理的两个关键挑战:确保长时间自主执行(数小时)以及为本地应用设计对代理友好的架构。他们提出在规划和执行之前,增加一个显式的知识组织阶段来管理混乱的上下文。
@aiDotEngineer:真正能投入生产的多智能体架构 https://youtube.com/watch?v=ow1we5PzK-o… 实际可用的多智能体编……
本文深入解析了FactoryAI的Missions多智能体架构,通过角色分工、验证合约与结构化交接机制,实现了可在生产环境中连续稳定运行数十天的自动化编码系统。该设计将软件工程瓶颈从人工执行转向人类注意力管理,为开发者提供了可落地的长期多智能体协作方案。
@zodchiii:三位Anthropic工程师花了16分钟讨论AI智能体在生产中真正成功的要素。如果这些人…
Anthropic工程师分享了让AI智能体在生产中成功落地的见解,重点介绍了他们在Claude项目中验证的有效模式。
本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。
本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。