我认为长上下文代理的失败方式非常无聊
摘要
一篇观点文章,认为长上下文窗口并不等同于记忆,代理失败通常很普通,比如忘记约束或重新读取文件,强调可靠性取决于上下文架构决策。
我认为人们高估了大上下文窗口实际带来的好处。例如,20万token并不意味着记忆。它只是意味着代理有更多空间来埋没重要的东西。失败通常也很无聊:它重新读取同一个文件,忘记之前的约束,选择一个技术上有效但错误的工具,然后输出一些看起来不错的东西,直到你将其与原始任务进行比较。很多“代理可靠性”工作实际上是上下文架构工作:加载什么、丢弃什么、压缩什么、以及在下一步之前重复什么。
相似文章
更大的上下文窗口对智能体来说其实是错误的方向吗?
作者质疑将注意力集中在扩大AI智能体的上下文窗口上是否适得其反,认为积累的垃圾信息会拖慢长时间会话,并建议保持工作上下文小巧、使用外部记忆。
连续运行六小时后,你的上下文窗口究竟会发生什么
一位实践者分享了AI代理连续运行6小时以上时,上下文窗口管理策略(摘要、RAG、截断)的真实失败模式,指出每种方法都会以仅在长时间运行时才会显现的方式降低决策质量。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
尝试让智能体记忆跨会话持久化所学的经验
本文反思了AI智能体记忆的复杂性,远超简单的存储问题,强调了诸如判断真实性、优先级变化、区分决策与噪音以及何时恰当地呈现上下文等挑战。
更少上下文,更智能代理:面向长周期工具使用的LLM代理的高效上下文工程
本文评估了企业工具使用工作流中LLM代理的上下文工程配置,表明选择性修剪的摘要化相比全上下文基线实现了91.6%的准确率,同时将令牌使用量减少了60%以上。