模型是CPU,不是整台电脑——为什么智能体性能的提升,框架与模型升级同等重要

Reddit r/AI_Agents 新闻

摘要

文章认为,对于智能体性能而言,框架(模型周围的系统)与模型本身同等重要,并引用了多项基准测试和实验的证据。

写下了我一直耿耿于怀的事情:人们总说“我们用了同一个模型”,但智能体的结果却天差地别。原因在于模型并非系统本身——框架才是。模型=CPU;上下文窗口=内存;工具=设备;编排循环=调度器;权限=内核环;测试/追踪/评估=可观测性。我所依赖的一些证据包括: * LangChain 使用了**同样的** gpt-5.2-codex,仅在 Terminal-Bench 2.0 上通过改变框架就从 52.8% 提升到了 66.5%(+13.7 个百分点,没有新模型)。 * Harness-Bench(5,194 条轨迹)认为,你应该在模型-框架配置层面报告能力,而非仅报告模型本身。 * Vercel **移除**了其智能体约 80% 的工具,结果反而更好——更多框架并不总是更好。 * Anthropic 的“构建以删除”:更强的模型需要**更少**的框架。反过来看,更小/开放权重的模型需要**更多**框架才能达到相同的效果——你将差距从 API 成本转移到了工程成本。 开放权重角度对于自托管者来说很有趣:据报道,Qwen3.6-27B 在 Terminal-Bench 2.0 上达到了约 59.3,接近 Opus-4.5 级别在范围明确的智能体编码上的表现。配合为其调优的框架,你就能大部分接近前沿模型——同时完全掌控状态、工具和策略(如果你受欧盟法规管辖,这一点尤为重要)。 我好奇的是,大家认为框架在哪些方面**无法**弥补差距——我的看法是硬性推理/长期任务以及尾部失败行为。你的经验是什么?
查看原文

相似文章

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。