@sydneyrunkle: https://x.com/sydneyrunkle/status/2056419909941522687

X AI KOLs Following 2026/05/18 17:01 工具

deep-agents agent-framework code-interpreter tool-calling streaming open-source langsmith

摘要

Deep Agents v0.6 引入了代码解释器、用于按模型调优的测试配置文件、流式支持、用于检查点存储的 DeltaChannel 以及用于版本化代理记忆的 ContextHubBackend，实现了模型无关的编程式工具调用和递归工作流。

https://t.co/yfKgYIY6Po

查看原文

查看缓存全文

缓存时间: 2026/05/19 00:39

Deep Agents v0.6

最新的 DeepAgents 版本专注于模型层、智能体层、规模化以及持续运行的性能。以下五个方面为本版本提供了支撑：

代码解释器： 一个轻量级运行时，让智能体组合工具、管理状态，并控制哪些信息进入模型上下文 —— 无需完整沙箱的开销。
Harness 配置： 针对每个模型进行调优，使你的 harness 能充分发挥所用模型的性能，包括 Kimi、Qwen、DeepSeek 等开源权重模型。
流式传输： 对消息、工具调用、子智能体和自定义应用事件提供类型化投射 —— 你的应用可以只订阅所需的内容，而无需解析原始流输出。
DeltaChannel： 随着智能体运行时间变长、上下文累积，提供高效的检查点存储，同时不牺牲持久执行保证（这使得智能体可恢复、可观察、具备弹性）。
ContextHubBackend： 基于 LangSmith Context Hub，为塑造智能体行为的技能、策略和记忆提供版本化协作存储空间，让智能体从一次运行中学习到的东西能够改进下一次运行。

代码解释器

我们在 Deep Agents 中发布了一个可安装的代码解释器，它为智能体提供了一个可编程的工作空间，用于转换数据、协调工具调用，并将中间工作排除在模型上下文之外。智能体编写代码来表达其意图，然后一个内存中的运行时执行这段代码，并返回相关结果。

沙箱是一种以代码优先的方式作用于环境（例如运行命令、安装依赖、编辑文件），而解释器是一种以代码优先的方式作用于智能体循环内部：组合工具、保持状态、决定哪些信息应返回给模型。

这为智能体带来了几个令我们特别兴奋的新能力：

模型无关的 PTC

标准的工具调用循环让模型成为每一步的流量控制器。模型请求一个工具，在上下文中接收完整结果，对该结果进行推理，然后重复。即使中间结果仅用于计算下一个输入，它仍然需要通过多次模型调用来串联。

程序化工具调用（PTC）改变了这一流程。模型编写代码，在运行时内部调用工具，这样工作流无需每次单独的工具调用都经历模型往返。中间结果可以保留在运行时状态中，解释器可以过滤噪声输出、处理数据、重试失败，只将相关上下文返回给模型。

这种工具调用模式可以减少 token 消耗，减少不必要的模型往返，并缩小智能体的推理步骤。

Anthropic 通过在其模型系列中将此模式作为 API 行为来推广，但现在通过解释器，任何模型（包括开源模型）的任何智能体都可以实现这一点。

递归工作流

解释器让智能体能够以更多新颖方式与 harness 交互。由于工具和子智能体可以从代码中调用，智能体可以获取一个子智能体的输出，检查它，转换它，并输入到另一个步骤，而无需将每个中间产物都通过主模型路由。

这使得递归工作流成为可能：智能体可以维护一个问题队列，对下一个问题调用子智能体，存储结果，从该结果生成后续工作，并继续直到拥有足够的证据来综合答案。（这不仅仅是“在完整输入上下文上调用另一个 LLM”：关键是在模型上下文之外维护工作状态，并控制什么内容进入下一个调用。）

这与**递归语言模型（RLM）**的思想相近：在模型上下文之外保持工作状态，对所选分支调用模型或子智能体，并控制进入下一个模型调用的内容。递归语言模型

在 Deep Agents 中，解释器成为该模式的工作运行时 —— 但我们并不声称按原始定义在模型层实现了“RLM”。

所有这一切都可以通过安装 pypi 上的 deepagents[quickjs] 或 npm 上的 @langchain/quickjs 并将其添加为中间件来启用。

有关解释器的更多信息，请参阅文档。

Harness 配置

像 Kimi K2.6、GLM 5.1 和 DeepSeek V4 这样的开源权重模型现在已可用于生产级智能体工作，其成本通常比封闭前沿模型低 20 倍以上。但模型在工具调用格式和提示约定上经过了后训练，而大多数 harness 都针对其作者构建时所依赖的封闭模型进行了调优。直接冷替换一个模型，你可能只能看到其真实能力的一小部分，因为模型说着一种 harness 不理解的方言。

这种差距很大且可量化。在我们自己的测试中，仅通过 harness 层更改就将 gpt-5.2-codex 在 Terminal-Bench 2.0 上从 52.8% 提升到了 66.5%（从 Top 30 到 Top 5），将 gpt-5.3-codex 在 tau2-bench 上提升了 20%，将 opus-4.7 提升了 10%。在 tau2-bench 上，提示和中间件可以在不改变模型的情况下使分数移动 10 到 20 个点。

“harness” 围绕模型：基础系统提示、工具及其描述，以及塑造每一轮次的中间件。harness 配置将这些针对模型的覆盖项捕获为一个命名的、可版本化的单元。

DeepAgents v0.6 将 harness 配置作为一等抽象。你可以对配置进行 diff、版本控制和与模型一起切换，从而使调优工作得以延续。我们为主流模型提供了内置配置，使得开箱即用就能获得强大性能，同样的机制也适用于你自己的技术栈。

更多信息请参阅跨不同模型调优 Deep Agents。查看文档以编写你自己的配置。

流式传输

智能体在返回最终答案之前会做大量工作。为了获得良好的用户体验，你希望在工作进行时展示这些进展，并赋予用户在此过程中引导智能体的能力：流式传输是实现这一点的原语。LangChain 的新版本将流式传输作为一等应用原语。通过 stream_events(…, version=“v3”)，智能体和图现在发出统一的事件流，并针对开发者实际想要渲染的原语提供人性化的投射：消息文本、推理块、工具调用、状态更新、子图、子智能体、自定义通道以及最终输出。该流以内容块为中心，这意味着 UI 不再需要猜测一个块是文本、推理、媒体还是工具调用数据。一切都围绕类型化事件、命名空间和通道组织，所有这些都是与新的智能体流式传输协议对齐的。

这种流式传输模型还通过新的智能体服务器端点和 SDK 支持在网络上传输。LangGraph SDK 通过 client.threads.stream(…) 暴露远程事件流，支持多模态内容、重连/重放行为以及通过 SSE 或 WebSockets 的传输无关交付。由于本地和远程流现在遵循相同的协议，开发者在脚本、后端服务和生产前端之间获得了一致的观察智能体运行的方式。应用可以只订阅它们需要的运行部分，例如来自特定子智能体的消息、来自自定义通道的更新或特定命名空间内的事件。

在前端，本版本为 @langchain/react、@langchain/vue、@langchain/svelte 和 @langchain/angular 带来了 v1 框架集成，为团队提供了惯用的钩子和工具来构建丰富的流式体验，无需手动编写事件解析器。为了让新栈易于探索，我们还发布了流式传输食谱：一系列可运行的示例，涵盖了消息流、子图、子智能体、自定义流转换器、多模态 UI、重连行为以及特定框架模式。最终的结果是一个流式传输基础，在需要精确的地方提供底层控制，在需要效率的地方提供高层抽象，并且从智能体运行时到用户界面保持一致。

增量通道

Deep Agents 基于 LangGraph 运行时构建，该运行时在每个步骤检查智能体的进度。这使得可观测性、人在回路中和故障恢复成为可能：你总是确切知道智能体的位置，并且可以从任何点恢复。

随着智能体变得越来越强大：

它们运行时间更长，消息历史跨越多达数十或数百个步骤
它们使用更多上下文，利用文件系统进行上下文管理和卸载

对于 Deep Agents，消息历史和文件存在于智能体状态中，采用每步快照的方式，检查点存储以 O(N^2) 增长。

增量通道是我们演进运行时以跟上步伐的方式。我们不在每个检查点序列化完整快照，而是仅存储差异。对于 Deep Agents，这意味着消息历史和文件的增量存储。

你仍然可以获得智能体进度的完整历史，但存储成本仅为原来的一小部分。这也有助于缓解长时间运行智能体对检查点（数据库）写入的瓶颈，并且规模化下的存储成本更易管理。

根据对话长度和上下文大小，切换到增量通道可以使检查点存储减少 10-100 倍。

例如，考虑一个实验：模拟的多文件编码会话，其中智能体编写文件、检索文档并推理工作 —— 200 轮持续的、上下文密集型工作，这正是有能力的编码智能体的典型行为。没有增量通道时，该会话累积 5.27 GB 的检查点存储。使用增量通道时：129 MB。

以下是同一智能体使用和不使用增量通道时检查点存储的比较：

以及这种爆炸式增长的图形表示：

长时间运行、上下文深度的智能体是该领域的发展方向，而增量通道正是我们运行时为此类需求规模化演进的方式。

更多详情请参阅完整文章。

ContextHub 后端

Context Hub 是一个由 LangSmith 支持的文件系统，专为 Deep Agents 设计。它为你提供了存储塑造智能体行为的文件的版本化位置，从而使提示、技能和其他上下文的改进能够跨运行传递。

在底层，你的智能体从 Hub 仓库读取（并可写入）。这些写入以带有历史记录、审查和环境标签的提交形式落地 —— 这样你可以在预发布环境中迭代，然后提升到生产环境，而无需搭建单独的存储层。

要将其用作智能体的文件系统后端：

或者将 /memories/ 范围限定到 Hub，同时保持文件系统的其余部分为线程范围：

读取由缓存提供，写入则提交回 Hub 仓库。如果仓库还不存在，第一次写入会创建它 —— 之后，你可以像处理其他版本化上下文一样对其更改进行 diff、审查和标记。

在使用 ContextHubBackend 之前，请设置 LANGSMITH_API_KEY。有关冲突处理和限制，请参阅完整文档。

总结

Deep Agents v0.6 版本的核心主线是性能：

Harness 配置帮助你在最优 harness 下榨取模型性能，并以前沿 API 的一小部分成本解锁开源权重模型上的可行智能体运行。
代码解释器赋予智能体编写和执行代码的更多自主权，帮助其完成复杂任务并优化上下文窗口使用。
流式传输通过针对工具和子智能体进展的订阅模型，支持高度并行系统。
DeltaChannel引入了一种存储原语，支持长时间运行、长上下文智能体的检查点。
ContextHubBackend为驱动智能体行为的文件提供了基于 LangSmith Context Hub 的版本化存储空间，使得上下文的改进可以从一次运行传递到下一次。

我们很期待你试用最新的 deepagents。请告诉我们你的想法！

发布说明：Python, TypeScript

相似文章

@sydneyrunkle: https://x.com/sydneyrunkle/status/2071629451712983319

X AI KOLs Timeline

Deep Agents 引入了动态子代理，它们通过代码脚本进行程序化编排，而不是使用工具调用，从而实现了可靠的扩展和复杂的工作流程。该功能集成了 QuickJS 代码解释器以实现轻量级执行。

@huntlovell: https://x.com/huntlovell/status/2057166131924988002

X AI KOLs Timeline

Deep Agents 引入了解释器：小型嵌入式运行时，允许智能体在智能体循环内编写和执行代码，实现多步逻辑和中间状态管理，无需完整的沙箱开销。

@sydneyrunkle: here's a quick overview of a) what is deepagents b) what makes deepagents good at complex tasks c) how to easily take o…

X AI KOLs Following

DeepAgents是一个可定制的AI代理框架，专为复杂现实任务设计，具备执行环境、上下文管理、委派和人在回路能力，并提供了托管版实现生产级部署。

@LangChain：@sydneyrunkle 在不到90秒内解释 Deep Agents

X AI KOLs Following

这是由 Sydney Runkle 对 Deep Agents 的简短解释，由 LangChain 呈现。

@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

X AI KOLs Following

ApodexAI 发布了 Apodex-1.0，这是一个深度研究模型，作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队，最多包含 150 个子代理，在深度研究基准测试（包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience）上取得了新的最先进结果，超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。

Deep Agents v0.6

代码解释器

模型无关的 PTC

递归工作流

Harness 配置

流式传输

增量通道

ContextHub 后端

总结

相似文章

@sydneyrunkle: https://x.com/sydneyrunkle/status/2071629451712983319

@huntlovell: https://x.com/huntlovell/status/2057166131924988002

@sydneyrunkle: here's a quick overview of a) what is deepagents b) what makes deepagents good at complex tasks c) how to easily take o…

@LangChain：@sydneyrunkle 在不到90秒内解释 Deep Agents

@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

提交意见反馈