我是如何解决持续运行的Anthropic智能体循环中上下文窗口膨胀问题的(Opus + Sonnet架构)

Reddit r/AI_Agents 工具

摘要

一位开发者分享了一种架构模式,用于管理持续运行的Anthropic智能体循环中的上下文窗口膨胀问题,采用KV缓存、动态工具模式加载,以及通过Claude 3.5 Sonnet和Claude 3 Opus解耦执行器与顾问角色。

我花了很多时间部署多智能体架构,而在运行持续性智能体循环时,最大的瓶颈之一就是触及上下文限制以及由此引发的API延迟峰值。我想分享一个对我行之有效的架构模式,它利用Claude 3 Opus和3.5 Sonnet来管理内存和计算资源。该方案主要包括三个组件: * **KV提示缓存以降低延迟:** 我并非在每次轮次都发送完整的系统提示,而是利用KV缓存来隔离延迟。核心指令和静态上下文会保持缓存状态,从而显著加快循环迭代速度。 * **推迟加载工具模式:** 在初始上下文中塞入所有可能的工具模式通常是导致膨胀的原因。我改为仅在智能体的初始路由判断可能需要时,才动态加载工具模式。 * **“顾问策略”(解耦角色):** 为平衡成本与推理能力,我将执行层和顾问层分开。使用Claude 3.5 Sonnet作为高速“执行器”,负责标准路由和工具调用。当逻辑变得过于复杂或需要调试错误时,上下文(经过内存压缩/摘要步骤后)会被路由到Opus,它纯粹作为“顾问”角色,之后再将控制权交回Sonnet。 我很想听听各位在自己的智能体循环中是如何处理内存压缩和长时间运行记录的。你们采用的是摘要替换法,还是其他方法?
查看原文

相似文章

用于长时间运行代理的有效工具

Anthropic Engineering

Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。