升级模型后,你的代理持续出错。Cursor的工程笔记解释了原因。

Reddit r/AI_Agents 新闻

摘要

Cursor的工程笔记揭示,代理失败往往源于框架(脚手架)而非模型本身,不同供应商的工具格式差异会导致静默错误和可靠性问题。

我经常在这个论坛和我的项目中看到这样的情况:代理失败,换模型,同样方式失败。再换一次。Cursor刚刚发布了工程笔记,解释了为什么这个循环永远不会奏效。他们通过重写框架,将同一模型的工具错误减少了10倍。相同的API调用,相同的权重,不同的脚手架。这些笔记中的一些内容改变了我调试的思路:工具格式问题解释了很多静默失败。Claude模型基于字符串替换进行训练。OpenAI模型基于补丁式差异进行训练。给Claude一个补丁格式的工具虽然可行,但会强制进行实时翻译,消耗推理能力并产生更多错误。因此,Cursor为每个供应商构建了独立的框架。复合可靠性数学比人们预期的更糟糕。五个代理各自95%的可靠性串联在一起:端到端成功率77.4%。四次中一次失败。没有框架中的检查点和回滚,这个问题会静默累积。SWE-Bench Pro清晰地分离了这一点。Claude Opus 4.5在最小标准化框架下:45.9%。同一模型在Claude Code的自定义框架下:55.4%。相同任务,相同模型。他们的结论是:“两年前,框架只是代理质量的一小部分。现在它是代理质量中最重要的部分。”对于正在积极构建代理的人们:当模型显然不是问题时,故障隐藏在哪里?
查看原文

相似文章