升级模型后，你的代理持续出错。Cursor的工程笔记解释了原因。

Reddit r/AI_Agents 2026/05/22 22:09 新闻

agent-failures harness cursor reliability engineering-notes scaffolding tool-format

摘要

Cursor的工程笔记揭示，代理失败往往源于框架（脚手架）而非模型本身，不同供应商的工具格式差异会导致静默错误和可靠性问题。

我经常在这个论坛和我的项目中看到这样的情况：代理失败，换模型，同样方式失败。再换一次。Cursor刚刚发布了工程笔记，解释了为什么这个循环永远不会奏效。他们通过重写框架，将同一模型的工具错误减少了10倍。相同的API调用，相同的权重，不同的脚手架。这些笔记中的一些内容改变了我调试的思路：工具格式问题解释了很多静默失败。Claude模型基于字符串替换进行训练。OpenAI模型基于补丁式差异进行训练。给Claude一个补丁格式的工具虽然可行，但会强制进行实时翻译，消耗推理能力并产生更多错误。因此，Cursor为每个供应商构建了独立的框架。复合可靠性数学比人们预期的更糟糕。五个代理各自95%的可靠性串联在一起：端到端成功率77.4%。四次中一次失败。没有框架中的检查点和回滚，这个问题会静默累积。SWE-Bench Pro清晰地分离了这一点。Claude Opus 4.5在最小标准化框架下：45.9%。同一模型在Claude Code的自定义框架下：55.4%。相同任务，相同模型。他们的结论是：“两年前，框架只是代理质量的一小部分。现在它是代理质量中最重要的部分。”对于正在积极构建代理的人们：当模型显然不是问题时，故障隐藏在哪里？

查看原文

升级模型后，你的代理持续出错。Cursor的工程笔记解释了原因。

相似文章

我以为是模型问题的代理bug，结果出在框架上

你的框架辜负了你的智能体，但却没有基准来证明这一点

你的代理失败不是因为模型，而是因为没人构建一个停止按钮

你的 AI Agent 没坏，是你的控制框架没配好。来看看我是如何搭建这套系统，让它从“累赘”转变为能交付生产级代码的。

模型是CPU，不是整台电脑——为什么智能体性能的提升，框架与模型升级同等重要

提交意见反馈