你的智能体在长时间会话中表现会下降
摘要
本文讨论了AI智能体在长会话中性能下降的问题,原因是上下文窗口被原始历史、工具输出和重复推理所充斥,并提出了通过总结旧轮次和修剪工具输出来延长有效运行长度的解决方案。
你给智能体分配了一个长任务。前几步很清晰,但到了第十步左右,它开始出现失误:重复调用已经执行过的工具,忽略线程最顶端的指令,并开始重复自己的推理。同一个模型,第一步表现得很好。变化的是,在它出错时,上下文窗口中积累了大量内容。追踪一次运行,每一步都标记出当前token深度。质量下降通常与窗口填满同步,而到那时,窗口里塞满了三样东西:完整的历史记录(每轮重新注入)。开头的指令还在那里,但被之后发生的成千上万个token埋没了。工具输出的完整内容。一次搜索或一次文件读取就会将巨大的JSON blob放入上下文,而这些字段大部分永远不会再被读取。智能体自身的推理,每轮都被反馈并构建,因此早期的小偏差会在运行过程中累积放大。我们有效的做法是从源头减少噪音:一旦旧轮次稳定下来,就对其进行总结,保留决策,去掉原始的来回交互。在工具输出进入上下文之前,只修剪出智能体实际读取的字段。将核心指令放在窗口末尾附近,这样在运行深入时注意力保持得最好。在我们检查的运行中,“模型无法处理长任务”常常被证明是“模型被转录淹没”。同一模型,一旦窗口不再被噪音填满,有效运行时间大大延长。好奇其他人如何应对运行深入时的下滑。你是通过总结旧轮次、重新固定系统提示还是其他方式来保持原始指令存活?有没有人直接测量会话中的质量下降,还是只检查最终答案?
相似文章
我们的 AI 智能体并没有变笨。只是它底层的记忆正在腐烂,而且没人告诉过你。
这篇文章解释了 AI 智能体实际上并不会随时间推移而变笨;相反,它们的底层记忆会因存储的假设、摘要和矛盾而积累损坏的上下文,导致性能下降。大多数系统缺乏修订或遗忘信息的能力,从而引发衰退。
AI 智能体运行时间越长,你花费在管理其记忆上的时间就越超过实际使用它的时间。
本文重点讨论了随时间推移管理 AI 智能体记忆时日益严重的问题:用户花费更多精力维护上下文,而非实际使用智能体。文章指出,目前缺乏用于记忆衰减和治理的基础设施。
连续运行六小时后,你的上下文窗口究竟会发生什么
一位实践者分享了AI代理连续运行6小时以上时,上下文窗口管理策略(摘要、RAG、截断)的真实失败模式,指出每种方法都会以仅在长时间运行时才会显现的方式降低决策质量。
尝试让智能体记忆跨会话持久化所学的经验
本文反思了AI智能体记忆的复杂性,远超简单的存储问题,强调了诸如判断真实性、优先级变化、区分决策与噪音以及何时恰当地呈现上下文等挑战。
AI agents初体验令人惊艳,但工作流一乱就麻烦不断
对AI agents的反思:在狭窄的监督任务中令人印象深刻,但由于会话过期、上下文漂移和静默失败等问题,在长期运行、混乱的工作流程中显得脆弱且不可靠。