@sydneyrunkle: https://x.com/sydneyrunkle/status/2056419909941522687
摘要
Deep Agents v0.6 引入了代码解释器、用于按模型调优的测试配置文件、流式支持、用于检查点存储的 DeltaChannel 以及用于版本化代理记忆的 ContextHubBackend,实现了模型无关的编程式工具调用和递归工作流。
查看缓存全文
缓存时间: 2026/05/19 00:39
Deep Agents v0.6
最新的 DeepAgents 版本专注于模型层、智能体层、规模化以及持续运行的性能。以下五个方面为本版本提供了支撑:
-
代码解释器: 一个轻量级运行时,让智能体组合工具、管理状态,并控制哪些信息进入模型上下文 —— 无需完整沙箱的开销。
-
Harness 配置: 针对每个模型进行调优,使你的 harness 能充分发挥所用模型的性能,包括 Kimi、Qwen、DeepSeek 等开源权重模型。
-
流式传输: 对消息、工具调用、子智能体和自定义应用事件提供类型化投射 —— 你的应用可以只订阅所需的内容,而无需解析原始流输出。
-
DeltaChannel: 随着智能体运行时间变长、上下文累积,提供高效的检查点存储,同时不牺牲持久执行保证(这使得智能体可恢复、可观察、具备弹性)。
-
ContextHubBackend: 基于 LangSmith Context Hub,为塑造智能体行为的技能、策略和记忆提供版本化协作存储空间,让智能体从一次运行中学习到的东西能够改进下一次运行。
代码解释器
我们在 Deep Agents 中发布了一个可安装的代码解释器,它为智能体提供了一个可编程的工作空间,用于转换数据、协调工具调用,并将中间工作排除在模型上下文之外。智能体编写代码来表达其意图,然后一个内存中的运行时执行这段代码,并返回相关结果。
沙箱是一种以代码优先的方式作用于环境(例如运行命令、安装依赖、编辑文件),而解释器是一种以代码优先的方式作用于智能体循环内部:组合工具、保持状态、决定哪些信息应返回给模型。
这为智能体带来了几个令我们特别兴奋的新能力:
模型无关的 PTC
标准的工具调用循环让模型成为每一步的流量控制器。模型请求一个工具,在上下文中接收完整结果,对该结果进行推理,然后重复。即使中间结果仅用于计算下一个输入,它仍然需要通过多次模型调用来串联。
程序化工具调用(PTC)改变了这一流程。模型编写代码,在运行时内部调用工具,这样工作流无需每次单独的工具调用都经历模型往返。中间结果可以保留在运行时状态中,解释器可以过滤噪声输出、处理数据、重试失败,只将相关上下文返回给模型。
这种工具调用模式可以减少 token 消耗,减少不必要的模型往返,并缩小智能体的推理步骤。
Anthropic 通过在其模型系列中将此模式作为 API 行为来推广,但现在通过解释器,任何模型(包括开源模型)的任何智能体都可以实现这一点。
递归工作流
解释器让智能体能够以更多新颖方式与 harness 交互。由于工具和子智能体可以从代码中调用,智能体可以获取一个子智能体的输出,检查它,转换它,并输入到另一个步骤,而无需将每个中间产物都通过主模型路由。
这使得递归工作流成为可能:智能体可以维护一个问题队列,对下一个问题调用子智能体,存储结果,从该结果生成后续工作,并继续直到拥有足够的证据来综合答案。(这不仅仅是“在完整输入上下文上调用另一个 LLM”:关键是在模型上下文之外维护工作状态,并控制什么内容进入下一个调用。)
这与**递归语言模型(RLM)**的思想相近:在模型上下文之外保持工作状态,对所选分支调用模型或子智能体,并控制进入下一个模型调用的内容。递归语言模型
在 Deep Agents 中,解释器成为该模式的工作运行时 —— 但我们并不声称按原始定义在模型层实现了“RLM”。
所有这一切都可以通过安装 pypi 上的 deepagents[quickjs] 或 npm 上的 @langchain/quickjs 并将其添加为中间件来启用。
有关解释器的更多信息,请参阅文档。
Harness 配置
像 Kimi K2.6、GLM 5.1 和 DeepSeek V4 这样的开源权重模型现在已可用于生产级智能体工作,其成本通常比封闭前沿模型低 20 倍以上。但模型在工具调用格式和提示约定上经过了后训练,而大多数 harness 都针对其作者构建时所依赖的封闭模型进行了调优。直接冷替换一个模型,你可能只能看到其真实能力的一小部分,因为模型说着一种 harness 不理解的方言。
这种差距很大且可量化。在我们自己的测试中,仅通过 harness 层更改就将 gpt-5.2-codex 在 Terminal-Bench 2.0 上从 52.8% 提升到了 66.5%(从 Top 30 到 Top 5),将 gpt-5.3-codex 在 tau2-bench 上提升了 20%,将 opus-4.7 提升了 10%。在 tau2-bench 上,提示和中间件可以在不改变模型的情况下使分数移动 10 到 20 个点。
“harness” 围绕模型:基础系统提示、工具及其描述,以及塑造每一轮次的中间件。harness 配置将这些针对模型的覆盖项捕获为一个命名的、可版本化的单元。
DeepAgents v0.6 将 harness 配置作为一等抽象。你可以对配置进行 diff、版本控制和与模型一起切换,从而使调优工作得以延续。我们为主流模型提供了内置配置,使得开箱即用就能获得强大性能,同样的机制也适用于你自己的技术栈。
更多信息请参阅跨不同模型调优 Deep Agents。查看文档以编写你自己的配置。
流式传输
智能体在返回最终答案之前会做大量工作。为了获得良好的用户体验,你希望在工作进行时展示这些进展,并赋予用户在此过程中引导智能体的能力:流式传输是实现这一点的原语。LangChain 的新版本将流式传输作为一等应用原语。通过 stream_events(…, version=“v3”),智能体和图现在发出统一的事件流,并针对开发者实际想要渲染的原语提供人性化的投射:消息文本、推理块、工具调用、状态更新、子图、子智能体、自定义通道以及最终输出。该流以内容块为中心,这意味着 UI 不再需要猜测一个块是文本、推理、媒体还是工具调用数据。一切都围绕类型化事件、命名空间和通道组织,所有这些都是与新的智能体流式传输协议对齐的。
这种流式传输模型还通过新的智能体服务器端点和 SDK 支持在网络上传输。LangGraph SDK 通过 client.threads.stream(…) 暴露远程事件流,支持多模态内容、重连/重放行为以及通过 SSE 或 WebSockets 的传输无关交付。由于本地和远程流现在遵循相同的协议,开发者在脚本、后端服务和生产前端之间获得了一致的观察智能体运行的方式。应用可以只订阅它们需要的运行部分,例如来自特定子智能体的消息、来自自定义通道的更新或特定命名空间内的事件。
在前端,本版本为 @langchain/react、@langchain/vue、@langchain/svelte 和 @langchain/angular 带来了 v1 框架集成,为团队提供了惯用的钩子和工具来构建丰富的流式体验,无需手动编写事件解析器。为了让新栈易于探索,我们还发布了流式传输食谱:一系列可运行的示例,涵盖了消息流、子图、子智能体、自定义流转换器、多模态 UI、重连行为以及特定框架模式。最终的结果是一个流式传输基础,在需要精确的地方提供底层控制,在需要效率的地方提供高层抽象,并且从智能体运行时到用户界面保持一致。
增量通道
Deep Agents 基于 LangGraph 运行时构建,该运行时在每个步骤检查智能体的进度。这使得可观测性、人在回路中和故障恢复成为可能:你总是确切知道智能体的位置,并且可以从任何点恢复。
随着智能体变得越来越强大:
- 它们运行时间更长,消息历史跨越多达数十或数百个步骤
- 它们使用更多上下文,利用文件系统进行上下文管理和卸载
对于 Deep Agents,消息历史和文件存在于智能体状态中,采用每步快照的方式,检查点存储以 O(N^2) 增长。
增量通道是我们演进运行时以跟上步伐的方式。我们不在每个检查点序列化完整快照,而是仅存储差异。对于 Deep Agents,这意味着消息历史和文件的增量存储。
你仍然可以获得智能体进度的完整历史,但存储成本仅为原来的一小部分。这也有助于缓解长时间运行智能体对检查点(数据库)写入的瓶颈,并且规模化下的存储成本更易管理。
根据对话长度和上下文大小,切换到增量通道可以使检查点存储减少 10-100 倍。
例如,考虑一个实验:模拟的多文件编码会话,其中智能体编写文件、检索文档并推理工作 —— 200 轮持续的、上下文密集型工作,这正是有能力的编码智能体的典型行为。没有增量通道时,该会话累积 5.27 GB 的检查点存储。使用增量通道时:129 MB。
以下是同一智能体使用和不使用增量通道时检查点存储的比较:
以及这种爆炸式增长的图形表示:
长时间运行、上下文深度的智能体是该领域的发展方向,而增量通道正是我们运行时为此类需求规模化演进的方式。
更多详情请参阅完整文章。
ContextHub 后端
Context Hub 是一个由 LangSmith 支持的文件系统,专为 Deep Agents 设计。它为你提供了存储塑造智能体行为的文件的版本化位置,从而使提示、技能和其他上下文的改进能够跨运行传递。
在底层,你的智能体从 Hub 仓库读取(并可写入)。这些写入以带有历史记录、审查和环境标签的提交形式落地 —— 这样你可以在预发布环境中迭代,然后提升到生产环境,而无需搭建单独的存储层。
要将其用作智能体的文件系统后端:
或者将 /memories/ 范围限定到 Hub,同时保持文件系统的其余部分为线程范围:
读取由缓存提供,写入则提交回 Hub 仓库。如果仓库还不存在,第一次写入会创建它 —— 之后,你可以像处理其他版本化上下文一样对其更改进行 diff、审查和标记。
在使用 ContextHubBackend 之前,请设置 LANGSMITH_API_KEY。有关冲突处理和限制,请参阅完整文档。
总结
Deep Agents v0.6 版本的核心主线是性能:
- Harness 配置帮助你在最优 harness 下榨取模型性能,并以前沿 API 的一小部分成本解锁开源权重模型上的可行智能体运行。
- 代码解释器赋予智能体编写和执行代码的更多自主权,帮助其完成复杂任务并优化上下文窗口使用。
- 流式传输通过针对工具和子智能体进展的订阅模型,支持高度并行系统。
- DeltaChannel引入了一种存储原语,支持长时间运行、长上下文智能体的检查点。
- ContextHubBackend为驱动智能体行为的文件提供了基于 LangSmith Context Hub 的版本化存储空间,使得上下文的改进可以从一次运行传递到下一次。
我们很期待你试用最新的 deepagents。请告诉我们你的想法!
发布说明:Python, TypeScript
相似文章
@huntlovell: https://x.com/huntlovell/status/2057166131924988002
Deep Agents 引入了解释器:小型嵌入式运行时,允许智能体在智能体循环内编写和执行代码,实现多步逻辑和中间状态管理,无需完整的沙箱开销。
@sydneyrunkle: here's a quick overview of a) what is deepagents b) what makes deepagents good at complex tasks c) how to easily take o…
DeepAgents是一个可定制的AI代理框架,专为复杂现实任务设计,具备执行环境、上下文管理、委派和人在回路能力,并提供了托管版实现生产级部署。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2052836621905510541
# Hermes Agent v0.13.0("韧性版本")发布:持久看板、目标持久化与检查点回滚 Hermes Agent v0.13.0 正式发布,代号"The Tenacity Release"(韧性版本),本次更新带来了持久化看板(Durable Kanban)、持久目标(Persistent Goals)、Checkpoints v2(含回滚功能)以及 8 项 P0 级安全修复,将自身定位为与 Claude Code、Codex 等编码智能体并肩的**运行时持久层**。此次发布恰逢 DeepSeek V4-Pro、MiMo-V2.5-Pro 等支持百万级上下文窗口的低成本模型相继推出,使长期运行的智能体软件变得更具可行性。 ## 核心新特性 ### 持久看板(Durable Kanban) 任务状态不再随会话结束而丢失。看板数据现可跨会话持久保存,智能体可在中断后无缝恢复工作流,无需从头重建任务上下文。 ### 持久目标(Persistent Goals) 智能体的长期目标现在可以跨越多个会话持续存在。这意味着用户无需在每次启动时重新向智能体说明意图,系统能够自主维护目标状态并持续推进执行。 ### Checkpoints v2(含回滚) 升级后的检查点系统引入了**回滚能力**,允许将智能体状态恢复至任意历史检查点。这对于长时间运行的任务尤为关键——一旦某个执行分支出现错误,可直接回退而无需从零重启。 ### 8 项 P0 级安全修复 本次版本针对最高优先级安全漏洞进行了全面修复,共解决 8 个 P0 级问题,进一步强化了生产环境下的部署安全性。 ## 定位:运行时持久层 Hermes Agent 将自身明确定位为**运行时持久层**,与 Claude Code、Codex 等以代码生成为核心的编码智能体形成互补,而非竞争。其核心价值在于为智能体提供可靠的状态管理与执行连续性,解决长期任务中"断点续跑"这一关键工程问题。 ## 时机:百万上下文模型降低门槛 此次发布的时机颇具战略意义。随着 DeepSeek V4-Pro 和 MiMo-V2.5-Pro 等支持百万 token 上下文窗口的模型以极低成本落地,长时间运行的智能体任务从理论走向实践的障碍正在迅速消除。上下文容量的扩展与持久化基础设施的成熟,共同构成了**长期智能体软件**规模化应用的两大前提条件,而 Hermes Agent v0.13.0 正是在这一窗口期及时补上了基础设施侧的关键拼图。
@svpino:这种架构模式将会淘汰单模型工具:你发送一个提示,智能体将其分解为多个子任…
Higgsfield AI 推出了 Supercomputer,一个云原生的自学习 AI 智能体,能够将任务分解为子任务,并将每个子任务分配给最适合的模型(例如,推理任务交给 Opus,视频任务交给 Seedance,图像任务交给 GPT),并配备三层记忆机制,实现跨会话的上下文持久化。
@LangChain: 关于Managed Deep Agents您需要了解的一切:
LangChain 宣布 Managed Deep Agents 进入私有测试版,这是一个托管的 API 优先运行时,用于构建、运行和生产中操作深度代理,利用开源 Deep Agents 工具集,并与 LangSmith 集成,实现持久执行、流式处理和人机协作工作流。