你的智能体在长时间会话中表现会下降

Reddit r/AI_Agents 2026/06/29 13:47 新闻

ai-agents context-window long-tasks performance-degradation summarization token-management prompt-engineering

摘要

本文讨论了AI智能体在长会话中性能下降的问题，原因是上下文窗口被原始历史、工具输出和重复推理所充斥，并提出了通过总结旧轮次和修剪工具输出来延长有效运行长度的解决方案。

你给智能体分配了一个长任务。前几步很清晰，但到了第十步左右，它开始出现失误：重复调用已经执行过的工具，忽略线程最顶端的指令，并开始重复自己的推理。同一个模型，第一步表现得很好。变化的是，在它出错时，上下文窗口中积累了大量内容。追踪一次运行，每一步都标记出当前token深度。质量下降通常与窗口填满同步，而到那时，窗口里塞满了三样东西：完整的历史记录（每轮重新注入）。开头的指令还在那里，但被之后发生的成千上万个token埋没了。工具输出的完整内容。一次搜索或一次文件读取就会将巨大的JSON blob放入上下文，而这些字段大部分永远不会再被读取。智能体自身的推理，每轮都被反馈并构建，因此早期的小偏差会在运行过程中累积放大。我们有效的做法是从源头减少噪音：一旦旧轮次稳定下来，就对其进行总结，保留决策，去掉原始的来回交互。在工具输出进入上下文之前，只修剪出智能体实际读取的字段。将核心指令放在窗口末尾附近，这样在运行深入时注意力保持得最好。在我们检查的运行中，“模型无法处理长任务”常常被证明是“模型被转录淹没”。同一模型，一旦窗口不再被噪音填满，有效运行时间大大延长。好奇其他人如何应对运行深入时的下滑。你是通过总结旧轮次、重新固定系统提示还是其他方式来保持原始指令存活？有没有人直接测量会话中的质量下降，还是只检查最终答案？

查看原文

你的智能体在长时间会话中表现会下降

相似文章

我们的 AI 智能体并没有变笨。只是它底层的记忆正在腐烂，而且没人告诉过你。

AI 智能体运行时间越长，你花费在管理其记忆上的时间就越超过实际使用它的时间。

连续运行六小时后，你的上下文窗口究竟会发生什么

尝试让智能体记忆跨会话持久化所学的经验

AI agents初体验令人惊艳，但工作流一乱就麻烦不断

提交意见反馈