Claude 推出自我改进型智能体(5 分钟阅读)
摘要
Anthropic 宣布为 Claude Managed Agents 带来多项新功能,包括用于自我改进记忆的“dreaming(梦境)”功能、基于结果的评估循环,以及多智能体编排能力。
Claude Managed Agents 推出了 dreaming、outcomes 和多智能体编排等功能。Dreaming 通过分析过往会话来识别模式,从而提升智能体的改进能力;outcomes 则让智能体能够根据预定义的成功标准进行自我修正。多智能体编排通过让智能体将任务委派给专业的子智能体,来优化复杂任务的管理,Harvey、Netflix、Every 旗下的 Spiral 以及 Wisedocs 等公司均已采用该功能。
查看缓存全文
缓存时间: 2026/05/08 09:17
# Claude Managed Agents 新功能:dreaming、outcomes 与多智能体编排
来源:https://claude.com/blog/new-in-claude-managed-agents
今天,我们在 Claude Managed Agents 中推出 dreaming 功能作为研究预览。Dreaming 通过回顾过往会话来发现模式,帮助智能体自我改进,从而扩展了 memory(https://claude.com/blog/claude-managed-agents-memory)的能力。我们还将 outcomes、多智能体编排和 webhook 开放给使用 Managed Agents 的开发者。这些更新共同让智能体能够以更少的干预处理复杂任务。
## **通过 dreaming 构建自我改进的智能体**
Dreaming(https://platform.claude.com/docs/en/managed-agents/dreams)是一个定时运行的过程,它会审查您的智能体会话和记忆存储,提取模式并整理记忆,使您的智能体随时间不断改进。您可以自主决定控制程度:dreaming 可以自动更新记忆,也可以让您在变更生效前进行审核。
Dreaming 能够发现单个智能体无法自行察觉的模式,包括重复性错误、智能体趋于一致的工作流,以及团队共有的偏好。它还会重构记忆结构,确保记忆在演进过程中保持高信噪比。这对长期运行的工作和多智能体编排尤其有用。
记忆和 dreaming 共同构成了一个强大的记忆系统,用于自我改进的智能体。记忆让每个智能体在工作过程中捕获所学内容,而 dreaming 则在会话之间精炼这些记忆,汇聚多个智能体的共享经验并保持其时效性。
Dreaming 已在 Claude Platform 的 Managed Agents 中可用;开发者可以在此申请访问权限(https://claude.com/form/claude-managed-agents)。
## **通过 outcomes 交付更优结果**
借助 outcomes(https://platform.claude.com/docs/en/managed-agents/define-outcomes),您可以编写描述成功标准的评分标准,智能体将朝着该目标努力。一个独立的评分器会在自己的上下文窗口中评估输出是否符合您的标准,因此不会受到智能体推理过程的影响。当结果不达标时,评分器会指出需要修改的地方,智能体则再次尝试。
当智能体知道"好"的标准是什么时,它们能发挥最佳水平。例如,结构框架、演示标准或需要满足的一系列要求。通过 outcomes,智能体可以对照这些标准检查自身工作并自我修正,直到输出达到足够好的水平,无需人工逐次审核。
Outcomes 对需要注重细节和全面覆盖的任务特别有用。它也适用于主观质量评估,比如文案是否符合品牌调性,或设计是否遵循视觉规范。在测试中,outcomes 相比标准提示循环将任务成功率提升了最高 10 个百分点,在最困难的问题上提升最为显著。Outcomes 还改善了文件生成质量,在我们的内部基准测试中,docx 任务成功率提升 +8.4%,pptx 提升 +10.1%。
您现在还可以定义一个 outcome,让智能体运行,并通过 webhook(http://platform.claude.com/docs/en/managed-agents/webhooks)在完成后接收通知。
## **通过多智能体协作处理复杂任务**
当单个智能体难以独立完成大量工作时,多智能体编排(https://platform.claude.com/docs/en/managed-agents/multi-agent)让主导智能体将任务拆分为多个部分,并委派给各自拥有独立模型、提示词和工具的专业智能体。例如,主导智能体可以运行调查,同时子智能体分别查阅部署历史、错误日志、指标和支持工单。
这些专业智能体在共享文件系统上并行工作,并将结果汇总到主导智能体的整体上下文中。主导智能体可以在工作流中途与其他智能体核对进展,因为事件是持久化的,每个智能体都记得自己做过什么。您还可以在 Claude Console(https://platform.claude.com/)中追踪每一步:哪个智能体做了什么、以什么顺序、以及原因,从而完整了解任务的委派和执行过程。
## **团队实践案例**
各团队正在利用 dreaming、outcomes 和多智能体编排来构建能够自我验证、跨会话学习并并行处理复杂任务的智能体:
- Harvey(https://www.harvey.ai/)使用 Managed Agents 协调复杂的法律工作,如长文起草和文档创建。借助 dreaming,它们的智能体能够跨会话记住所学内容,包括文件类型变通方法和工具特定模式。测试中完成率提升了约 6 倍。
- Netflix 的平台团队构建了一个分析智能体,处理来自数百个构建的不同来源日志。在影响数千个应用的变更中,关键是发现跨多个应用重复出现的问题。多智能体编排让该智能体并行分析批次数据,仅呈现值得关注的模式。
- Every 旗下的 Spiral(http://writewithspiral.com/)使用多智能体编排和 outcomes 为其新 API 和 CLI 提供写作智能体支持。主导智能体运行在 Haiku(https://www.anthropic.com/claude/haiku)上:接收请求、在需要时快速追问,然后将起草工作委派给运行在 Opus(https://www.anthropic.com/claude/opus)上的子智能体。当用户要求多个草稿时,子智能体并行运行。写作质量是 Spiral 的核心价值,因此他们使用 outcomes 来保障质量。每份草稿都会根据存储在记忆中的 Every 编辑原则和用户风格进行评分,只有达标的草稿才会返回。
- Wisedocs(https://www.wisedocs.ai/blogs/building-managed-agents-for-document-verification)在 Managed Agents 上构建了文档质量检查智能体,使用 outcomes 根据内部准则为每次审核评分。审核速度提升 50%,同时保持与团队标准的一致性。
## **开始使用**
Dreaming 作为研究预览版可用,outcomes、多智能体编排和 memory 作为 Managed Agents 的一部分以公开测试版提供。要开始使用 dreaming,请在此申请访问权限(https://claude.com/form/claude-managed-agents)。查阅我们的文档(https://platform.claude.com/docs/en/managed-agents/overview)了解更多信息,或访问 Claude Console(https://platform.claude.com/)部署您的第一个智能体。
相似文章
@techwith_ram: 一场关于记忆和梦境如何将Claude Managed Agents转变为自学习系统的精彩演讲。Anthropic正在构建…
Anthropic为Claude Managed Agents引入了Memory + Dreaming系统,通过长期记忆存储、模式检测和持续改进实现自学习。
我的生产环境AI Agent已经运行了数月。Anthropic的“梦境”功能恰好解决了我一直遇到的失败问题
Anthropic为Claude托管Agent(Managed Agents)推出了“梦境”功能及其他更新,使AI Agent能够从过去的会话中学习和自我纠正,同时报告称其年化增长率达到80倍。
未来,你只需要给Claude一个成果和预算就能完成一个目标。这就是方向……
Anthropic在其Code with Claude开发者大会上发布了新的托管代理功能,用户只需提供成果和预算即可完成目标,Claude将作为可扩展的云计算机全天候运行代理任务。
Anthropic计划推出新的Memory Files,进行Claude记忆更新(2分钟阅读)
Anthropic正计划为Claude进行一次重大的记忆更新,推出一个双模式系统,其中Memory Files将用户笔记按主题分配到结构化的文档中,这可能会增强Claude Managed Agents及其相关功能(如Dreams和Conway)的持久记忆。
@zodchiii:Anthropic 官方详解如何用 Claude 构建 AI Agent,架构深度超越多数 AI 课程……
Anthropic 联合 AWS 带来现场演示,手把手教你用 Claude 搭建 AI Agent,涵盖架构、工具、记忆、编排与部署全流程。