升级模型后,你的代理持续出错。Cursor的工程笔记解释了原因。
摘要
Cursor的工程笔记揭示,代理失败往往源于框架(脚手架)而非模型本身,不同供应商的工具格式差异会导致静默错误和可靠性问题。
我经常在这个论坛和我的项目中看到这样的情况:代理失败,换模型,同样方式失败。再换一次。Cursor刚刚发布了工程笔记,解释了为什么这个循环永远不会奏效。他们通过重写框架,将同一模型的工具错误减少了10倍。相同的API调用,相同的权重,不同的脚手架。这些笔记中的一些内容改变了我调试的思路:工具格式问题解释了很多静默失败。Claude模型基于字符串替换进行训练。OpenAI模型基于补丁式差异进行训练。给Claude一个补丁格式的工具虽然可行,但会强制进行实时翻译,消耗推理能力并产生更多错误。因此,Cursor为每个供应商构建了独立的框架。复合可靠性数学比人们预期的更糟糕。五个代理各自95%的可靠性串联在一起:端到端成功率77.4%。四次中一次失败。没有框架中的检查点和回滚,这个问题会静默累积。SWE-Bench Pro清晰地分离了这一点。Claude Opus 4.5在最小标准化框架下:45.9%。同一模型在Claude Code的自定义框架下:55.4%。相同任务,相同模型。他们的结论是:“两年前,框架只是代理质量的一小部分。现在它是代理质量中最重要的部分。”对于正在积极构建代理的人们:当模型显然不是问题时,故障隐藏在哪里?
相似文章
我以为是模型问题的代理bug,结果出在框架上
作者分享了一次调试经历:代理循环是由框架截断工具输出导致的,而非模型故障,突显了代理基础设施相比模型存在的可靠性差距。
你的框架辜负了你的智能体,但却没有基准来证明这一点
本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。
你的代理失败不是因为模型,而是因为没人构建一个停止按钮
文章认为,AI代理在生产中的主要失败点并非模型本身,而是缺乏基础设施,如停止按钮、账单监控以及工具调用的可追溯性。
你的 AI Agent 没坏,是你的控制框架没配好。来看看我是如何搭建这套系统,让它从“累赘”转变为能交付生产级代码的。
本文指出,AI 编程智能体的失败源于系统设计不佳,而非模型能力限制。文章提出了一套包含知识、护栏和反馈循环的三层“控制框架”,以可靠地交付生产级代码。
模型是CPU,不是整台电脑——为什么智能体性能的提升,框架与模型升级同等重要
文章认为,对于智能体性能而言,框架(模型周围的系统)与模型本身同等重要,并引用了多项基准测试和实验的证据。