你的智能体在长时间会话中表现会下降

Reddit r/AI_Agents 新闻

摘要

本文讨论了AI智能体在长会话中性能下降的问题,原因是上下文窗口被原始历史、工具输出和重复推理所充斥,并提出了通过总结旧轮次和修剪工具输出来延长有效运行长度的解决方案。

你给智能体分配了一个长任务。前几步很清晰,但到了第十步左右,它开始出现失误:重复调用已经执行过的工具,忽略线程最顶端的指令,并开始重复自己的推理。同一个模型,第一步表现得很好。变化的是,在它出错时,上下文窗口中积累了大量内容。追踪一次运行,每一步都标记出当前token深度。质量下降通常与窗口填满同步,而到那时,窗口里塞满了三样东西:完整的历史记录(每轮重新注入)。开头的指令还在那里,但被之后发生的成千上万个token埋没了。工具输出的完整内容。一次搜索或一次文件读取就会将巨大的JSON blob放入上下文,而这些字段大部分永远不会再被读取。智能体自身的推理,每轮都被反馈并构建,因此早期的小偏差会在运行过程中累积放大。我们有效的做法是从源头减少噪音:一旦旧轮次稳定下来,就对其进行总结,保留决策,去掉原始的来回交互。在工具输出进入上下文之前,只修剪出智能体实际读取的字段。将核心指令放在窗口末尾附近,这样在运行深入时注意力保持得最好。在我们检查的运行中,“模型无法处理长任务”常常被证明是“模型被转录淹没”。同一模型,一旦窗口不再被噪音填满,有效运行时间大大延长。好奇其他人如何应对运行深入时的下滑。你是通过总结旧轮次、重新固定系统提示还是其他方式来保持原始指令存活?有没有人直接测量会话中的质量下降,还是只检查最终答案?
查看原文

相似文章