我的生产环境AI Agent已经运行了数月。Anthropic的“梦境”功能恰好解决了我一直遇到的失败问题
摘要
Anthropic为Claude托管Agent(Managed Agents)推出了“梦境”功能及其他更新,使AI Agent能够从过去的会话中学习和自我纠正,同时报告称其年化增长率达到80倍。
在解释为什么这很重要之前,先看看它实际解决的是什么问题。我有一个负责处理法律文档工作流的Agent。每次会话中,它都会遇到相同的文件类型怪癖,以相同的方式失败,而我要手动修复它。下一次会话——同样的失败。Agent无法将这种学习成果传递下去。这不是模型的问题。这是记忆架构的问题。Anthropic上周推出的——“梦境”——是一个在会话之间运行的计划后台进程。它审查Agent的操作,找出像文件类型失败这样的重复模式,并编写更新的记忆,以便下一次会话使用。Harvey(一家法律AI公司)在他们的试点项目中看到了6倍的任务完成率提升。我认为人们在报道中忽略的一点是:真正的突破不是自我改进。而是Agent现在有了更接近机构记忆的东西。一组Agent可以发现任何单个Agent在其自身会话中永远无法看到的模式——共同的错误、汇聚的工作流、团队范围内的偏好。我面临的问题是:如何审计Agent为什么从上周二到今天改变了其行为?Anthropic提供了一个在变更落地前的审查步骤,这很有帮助。但在一个多Agent环境中,当梦境功能在整个舰队中运行时——监督表面会迅速变得复杂。还有其他人在Managed Agents上构建并思考这个问题吗?
查看缓存全文
缓存时间: 2026/05/12 06:40
# Anthropic 推出“梦境”功能,让 AI 代理能从自身错误中学习
来源: https://venturebeat.com/technology/anthropic-introduces-dreaming-a-system-that-lets-ai-agents-learn-from-their-own-mistakes
Anthropic (https://www.anthropic.com/) 于周二在其位于旧金山的第二届年度 Code with Claude 开发者大会 (https://claude.com/code-with-claude) 上,对其 Claude Managed Agents (https://platform.claude.com/docs/en/managed-agents/overview) 平台发布了一系列更新,推出了一项名为“梦境 (dreaming)” (https://platform.claude.com/docs/en/managed-agents/dreams) 的新功能,使 AI 代理能够从过去的会话中学习并随时间改进——这是迈向企业所要求的、可自我修正和自我改进的 AI 系统的关键一步,以便信任代理处理生产工作负载。
该公司还将两项此前处于实验阶段的功能——结果评估 (outcomes) (https://platform.claude.com/docs/en/managed-agents/define-outcomes) 和多代理编排 (multi-agent orchestration) (https://platform.claude.com/docs/en/managed-agents/multi-agent)——从研究预览版升级为公开测试版,使其在 Claude 平台上构建应用的开发者能够广泛使用。这三项功能共同解决了 Anthropic 所说的在大规模运行 AI 代理时最棘手的问题:保持准确性、促进学习以及防止它们在复杂的多步骤工作中成为瓶颈。
早期采用者已经报告了显著的成果。法律 AI 公司 Harvey (https://www.harvey.ai/) 在实施梦境功能后,任务完成率提高了约 6 倍。医疗文档审查公司 Wisedocs (https://www.wisedocs.ai/) 利用结果评估功能将文档审查时间缩短了 50%。Netflix 现在使用多代理编排功能同时处理来自数百次构建的日志。
这些发布正值 Anthropic 发展势头强劲的时刻。首席执行官 Dario Amodei 在大会的一场炉边对话中透露,公司的增长速度甚至超过了其内部激进的预测。
在 2026 年第一季度,Anthropic 实现了 Amodei 所说的收入和用量 80 倍的年化增长——远远超过了公司计划 10 倍的年增长率。Claude 平台上的 API 用量同比增长了近 70 倍,平均每位使用 Claude Code 的开发者每周花费 20 小时使用该工具。
Amodei 表示:“我们曾试图为每年 10 倍增长的世界做好充分规划。然而我们看到了 80 倍的增长。这就是我们在计算资源方面遇到困难的原因。”
anthropic growth graphAnthropic 在 2026 第一季度的实际增长远超其内部计划。公司曾预测年化增长 10 倍;而实际年化收入和用量增长了 80 倍。(图片来源:Michael Nunez / VentureBeat)
## **Anthropic 的梦境功能如何教导 AI 代理从自身历史中学习**
梦境 (https://platform.claude.com/docs/en/managed-agents/dreams) 是这三项功能中最具创新性的,也是 Anthropic 最希望将其与传统记忆系统区分开来的功能。虽然该公司今年早些时候推出了代理记忆功能——允许 Claude 在单个会话内及跨会话保留偏好和上下文——但梦境工作在更高的抽象层级。它是一个定时过程,回顾代理的过去会话和记忆存储,提取其中的模式,并整理这些记忆,从而使代理随时间改进。它揭示了单个代理会话无法独自看到的见解:反复出现的错误、多个代理独立趋同的工作流,以及代理团队之间共享的偏好。
Anthropic 研究产品经理负责人 Alex Albert (https://alexalbert.me/) 在大会采访解释了这一概念。他将梦境比作组织内的人员在处理任务后如何形成技能。“他们可能会用 Claude 完成一个工作流,在该工作流结束时,经过迭代和些许曲折后,他们希望记录下从 A 到 B 的路径,”Albert 说。“梦境正在发生非常类似的事情——模型在自动完成这一过程,而不是你手动根据使用 Claude 的经验创建技能,因此它为未来的会话保留了相同的上下文。”
至关重要的是,梦境不会修改底层模型权重。“我们并没有通过梦境来改变模型本身——它不会更新权重或类似的东西,”Albert 说。相反,代理将学习成果写为纯文本笔记和结构化的“ playbook”(操作手册),供未来会话参考,使整个过程对人类而言可观察且可审计。当被问及代理整合自身知识的信任影响时,Albert 承认“你需要投入一定程度的信任”,但指出所有记忆都是可检查的,且更智能的模型在管理这一过程方面正变得越来越好。“他们正在学习为未来的自己写更好的笔记,”他说。
## **现场演示展示了 AI 代理在无人类指导的情况下隔夜提升**
在主旨演讲中,Anthropic 团队使用一家名为“Lumara”的虚构航空航天初创公司,在现场演示了所有三项功能,该公司需要自主实现无人机在月球着陆以进行资源开采。团队配置了一个多代理系统,包括三个专家:负责整体任务成功的指挥代理、识别高质量着陆点的检测代理,以及处理安全无人机飞行和着陆的导航代理,并定义了一套成功标准,要求软着陆、地面清晰以及有足够的燃料储备返回地球。
针对六个假设着陆点的初步模拟产生了良好但不完美的结果。为了改进,演示者直接从 Claude 开发者控制台 (https://platform.claude.com/login?returnTo=%2F%3F) 触发了梦境会话。一夜之间,梦境代理审查了所有过去的模拟会话,并编写了一份详细的下降操作手册——这是一套基于多次任务运行中模式的综合启发式规则。第二天早上,团队在内存中包含梦境衍生操作手册的情况下运行了新模拟,之前在表现不佳的着陆点上取得了有意义的改进。
“我们只需要 Caitlin 按一下按钮,”Claude 平台产品负责人 Angela Jiang 指着台上的同事说道,“全靠梦境。”
该演示说明了这三项功能在实践中如何组合使用。多代理编排 (https://platform.claude.com/docs/en/managed-agents/multi-agent) 将复杂任务分解给具有独立上下文窗口的专家。结果评估 (https://platform.claude.com/docs/en/managed-agents/define-outcomes) 提供了评估标准,供独立的评分代理评估每次运行。而梦境 (https://platform.claude.com/docs/en/managed-agents/dreams) 则从这些运行中提取教训以改进未来表现——形成了 Anthropic 所描述的、在迭代之间无需人类干预的持续改进循环。
## **为什么 Anthropic 构建了独立的“评分”代理来检查 Claude 自身的工作**
目前处于公开测试阶段的结果评估功能,让开发者能够通过定义标准(结构性框架、演示标准、品牌声音或任何其他标准集合)来定义成功的样子,然后让代理自主迭代以符合该标准。结果评估在架构上独特之处在于其关注点分离。当代理完成工作时,一个独立的评分代理在其独立的上下文窗口中,根据开发者定义的标准评估输出。由于评分代理在新鲜的上下文中运行,它不受工作代理的推理或会话中积累的偏见的影响。
当评分代理发现输出与标准之间的差距时,它会具体指出需要更改的内容,工作代理再进行一轮修改。这一循环持续进行,直到满足标准,无需人类审查每次尝试。
Albert 将 Anthropic 的更广泛验证策略描述为采用“更多的测试时计算,让模型花更长时间思考问题,以检查另一项工作。”他承认,让模型检查自身的工作引发了合理的疑问,但他说,用新鲜的上下文窗口审查已完成的工作,始终优于要求同一个长运行线程识别自身的错误。“如果你把输出交给一个新的 Claude 并问‘你看到了什么 bug?’,你会获得更高的成功率,”他说。“在非常长的会话中,注意力方面仍存在某种局限性——他说 Anthropic 正在积极致力于在 future models 中修复这一限制。”
这种方法与 GitHub 已经使用的策略相呼应。GitHub 首席产品官 Mario Rodriguez (https://github.blog/author/mariorod/) 在大会的另一场演讲中描述了 Copilot 如何使用类似 Claude 模型的顾问模式——将较小、较便宜的模型作为执行者,将较大模型作为导师。当较小模型遇到超出其能力范围的问题时,它会调用较大模型寻求指导,然后继续自行执行。Rodriguez 表示,这种方法以显著较低的成本提供了接近 Opus 级别的智能,并且 GitHub 在编程工作流程的三个特定点插入批判模型:在起草计划后、在复杂实现后,以及在编写测试后但在运行之前。
## **并行 AI 代理现在可以处理单个模型线程过于复杂的任务**
多代理编排 (https://platform.claude.com/docs/en/managed-agents/multi-agent) 是第三项进入公开测试的功能,它允许主代理将大型任务分解为子任务,并将每个子任务委派给专家代理——每个代理都有自己的模型、系统提示、工具和独立的上下文窗口。Claude 控制台中可以追踪过程中的每一步,显示哪个代理做了什么、以什么顺序做以及为什么做。
这种设计为每个子代理提供了隔离的上下文,Anthropic 表示,这比让单个代理试图在一个线程中保持所有复杂性产生更好的结果。“每个子代理都有自己的独立线程和上下文窗口,”主旨演讲者解释道。“这是经过深思熟虑的——我们发现,通过分解工作然后合并结果,我们获得了更好的成果。”
Albert 提出了他对于何时使用多代理架构而非坚持单线程的经验法则。“并行代理更适合调查,”他说——即存在大量最终将被丢弃的上下文的情况。“如果你试图回答一个具体问题,你不需要来自未找到答案区域的搜索结果。你只需要答案。”他描述了为特定检索任务启动一次性子代理,并将仅结果带回主线程。他说,越来越多地,模型自身将决定何时并行化。“在未来,你真的不会关心它是一个代理还是多代理,或者发生了什么。你只是在与一个 Claude 交谈,它将自动部署正确的架构。”
## **Anthropic 的更大赌注:缩小 AI 能力与实际采用之间的差距**
这三项功能的到来是 Anthropic 在整个大会期间框架化的更广泛平台推动的一部分,旨在缩小“AI 能做什么和它实际上为人们做什么之间的差距”。Anthropic 首席产品官 Ami Vora (https://www.anthropic.com/news/introducing-anthropic-labs) 在其开幕主旨演讲中设定了这一主题,指出虽然模型能力呈指数级增长,但大多数组织仍以线性路径采用 AI。
领导 Anthropic 研究团队产品的 Dianne Penn (https://venturebeat.com/ai/anthropic-claude-ai-now-autonomously-interacts-with-external-data-and-tools?ref=marketinghackers.it) 将公司的进展衡量标准描述为“任务视野”——AI 代理在提高交付成果质量的同时能够自主工作多久。“去年这个时候,模型可以工作几分钟,”她说。“现在,我们大多数人都有代理连续运行数小时。明天,我们将拥有主动、全天候运行且在不丢失框架的情况下知道该做什么的代理。”
该活动还包括几项基础设施公告,旨在帮助开发者跟上步伐。Anthropic 表示,它已将 Pro、Max、Team 和 Enterprise 计划的五小时速率限制加倍,并大幅提高了 API 速率限制。该公司宣布与 SpaceX 合作,利用其 Colossus 数据中心的全部容量来扩展计算可用性——这是对 Amodei 所描述的需求危机直接回应。
所有三项功能都内置于 Claude Managed Agents (https://platform.claude.com/docs/en/managed-agents/overview) 中,该平台于 4 月 8 日推出公开测试版,作为一个包含最佳实践(包括记忆、工具集成和操作处理)的有主见框架。Anthropic 表示,使用 Managed Agents 的团队比从零开始构建自己代理基础设施的团队部署速度快 10 倍。Albert 使用操作系统类比来描述该平台:“使用托管代理,你不需要考虑如何设置周围系统的所有技术细节,”他说。“你是在为 Macs 构建应用程序——你不想去重新实现 macOS 的每一个细节。”
## **梦境、结果评估和多代理编排对企业 AI 未来的意义**
竞争影响显著。随着来自 OpenAI (https://openai.com/)、Google (https://www.google.com/) 和其他公司的 AI 代理平台争夺开发者采用,Anthropic (https://www.anthropic.com/) 押注认为,生产可靠性——而不仅仅是原始模型智能——将决定哪个平台赢得企业预算。梦境功能尤其开辟了新的领域:虽然其他平台提供记忆和工具使用,但代理系统回顾自身历史以提取可重用知识这一理念,更进一步地走向了企业在委托高风险工作之前所需要的持续改进系统。
大会展示了已经在此规模运营的公司。Mercado Libre (https://www.mercadolibre.com/),拉丁美洲最大的电子商务平台,有 23,000 名工程师运行 Claude Code,已在人类监督下审查了超过 500,000 个拉取请求,并目标在今年第三季度实现 90% 的自主编码。Shopify (https://www.shopify.com/) 不仅在工程团队,还在设计、产品和数据科学团队中部署了 Claude Code。
但正是 Dario Amodei 阐述了所有这些最宏大的愿景。他描述了从单个代理到多个代理再到整个组织智能的进展——从“房间里的一群聪明人”到他所谓的“数据中心里的天才国度”。他重申了一年前提出的预测:2026 年将看到第一家由单人运营的十亿美元公司。“尚未完全发生,”他说。“但我们还有七个月。”
梦境 (https://platform.claude.com/docs/en/managed-agents/dreams) 现已在研究预览版中可用。结果评估 (https://platform.claude.com/docs/en/managed-agents/define-outcomes) 和多代理编排 (https://platform.claude.com/docs/en/managed-agents/multi-agent) 处于公开测试阶段,Claude 平台上的所有开发者均可使用。七个月是否足够让独立创始人建立一家十亿美元业务,仍是一个未解之谜
相似文章
Claude 推出自我改进型智能体(5 分钟阅读)
Anthropic 宣布为 Claude Managed Agents 带来多项新功能,包括用于自我改进记忆的“dreaming(梦境)”功能、基于结果的评估循环,以及多智能体编排能力。
@zodchiii:三位Anthropic工程师花了16分钟讨论AI智能体在生产中真正成功的要素。如果这些人…
Anthropic工程师分享了让AI智能体在生产中成功落地的见解,重点介绍了他们在Claude项目中验证的有效模式。
@techwith_ram: 一场关于记忆和梦境如何将Claude Managed Agents转变为自学习系统的精彩演讲。Anthropic正在构建…
Anthropic为Claude Managed Agents引入了Memory + Dreaming系统,通过长期记忆存储、模式检测和持续改进实现自学习。
@aakashgupta: Anthropic 刚刚将睡眠机制引入了 AI 代理。当你睡觉时,你的海马体会将白天的神经序列重放给大脑皮层…
Anthropic 引入了一种新的 AI 代理“睡眠”机制,其灵感来源于生物海马体重放和梦境,用于提取模式并重组记忆,旨在防止因依赖原始上下文窗口而导致的能力停滞。
@zodchiii:Anthropic 官方详解如何用 Claude 构建 AI Agent,架构深度超越多数 AI 课程……
Anthropic 联合 AWS 带来现场演示,手把手教你用 Claude 搭建 AI Agent,涵盖架构、工具、记忆、编排与部署全流程。