模型是CPU,不是整台电脑——为什么智能体性能的提升,框架与模型升级同等重要
摘要
文章认为,对于智能体性能而言,框架(模型周围的系统)与模型本身同等重要,并引用了多项基准测试和实验的证据。
写下了我一直耿耿于怀的事情:人们总说“我们用了同一个模型”,但智能体的结果却天差地别。原因在于模型并非系统本身——框架才是。模型=CPU;上下文窗口=内存;工具=设备;编排循环=调度器;权限=内核环;测试/追踪/评估=可观测性。我所依赖的一些证据包括:
* LangChain 使用了**同样的** gpt-5.2-codex,仅在 Terminal-Bench 2.0 上通过改变框架就从 52.8% 提升到了 66.5%(+13.7 个百分点,没有新模型)。
* Harness-Bench(5,194 条轨迹)认为,你应该在模型-框架配置层面报告能力,而非仅报告模型本身。
* Vercel **移除**了其智能体约 80% 的工具,结果反而更好——更多框架并不总是更好。
* Anthropic 的“构建以删除”:更强的模型需要**更少**的框架。反过来看,更小/开放权重的模型需要**更多**框架才能达到相同的效果——你将差距从 API 成本转移到了工程成本。
开放权重角度对于自托管者来说很有趣:据报道,Qwen3.6-27B 在 Terminal-Bench 2.0 上达到了约 59.3,接近 Opus-4.5 级别在范围明确的智能体编码上的表现。配合为其调优的框架,你就能大部分接近前沿模型——同时完全掌控状态、工具和策略(如果你受欧盟法规管辖,这一点尤为重要)。
我好奇的是,大家认为框架在哪些方面**无法**弥补差距——我的看法是硬性推理/长期任务以及尾部失败行为。你的经验是什么?
相似文章
同一模型,不同框架:性能波动高达30-50个百分点。但团队依然仅凭模型名称来挑选智能体。
文章指出,智能体框架对性能的影响(30-50个百分点的波动)远大于模型选择本身,认为团队应关注实例级别的验证,而不仅仅盯着模型名称。
@sydneyrunkle: 假设智能体 = 模型 + 工具套件。不幸的是,好的模型越来越贵!所以你需要一个出色的工具套件来…
关于通过改进工具套件组件来优化AI智能体性能的指南,以补偿昂贵的模型成本,重点关注爬山技术。
观察:每个模型的最佳代理框架将由模型开发者自身提供
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。
你的框架辜负了你的智能体,但却没有基准来证明这一点
本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。