模型是CPU，不是整台电脑——为什么智能体性能的提升，框架与模型升级同等重要

Reddit r/AI_Agents 2026/06/09 12:27 新闻

agent-performance harness ai-agents model-comparison open-weight benchmarks

摘要

文章认为，对于智能体性能而言，框架（模型周围的系统）与模型本身同等重要，并引用了多项基准测试和实验的证据。

写下了我一直耿耿于怀的事情：人们总说“我们用了同一个模型”，但智能体的结果却天差地别。原因在于模型并非系统本身——框架才是。模型=CPU；上下文窗口=内存；工具=设备；编排循环=调度器；权限=内核环；测试/追踪/评估=可观测性。我所依赖的一些证据包括： * LangChain 使用了**同样的** gpt-5.2-codex，仅在 Terminal-Bench 2.0 上通过改变框架就从 52.8% 提升到了 66.5%（+13.7 个百分点，没有新模型）。 * Harness-Bench（5,194 条轨迹）认为，你应该在模型-框架配置层面报告能力，而非仅报告模型本身。 * Vercel **移除**了其智能体约 80% 的工具，结果反而更好——更多框架并不总是更好。 * Anthropic 的“构建以删除”：更强的模型需要**更少**的框架。反过来看，更小/开放权重的模型需要**更多**框架才能达到相同的效果——你将差距从 API 成本转移到了工程成本。开放权重角度对于自托管者来说很有趣：据报道，Qwen3.6-27B 在 Terminal-Bench 2.0 上达到了约 59.3，接近 Opus-4.5 级别在范围明确的智能体编码上的表现。配合为其调优的框架，你就能大部分接近前沿模型——同时完全掌控状态、工具和策略（如果你受欧盟法规管辖，这一点尤为重要）。我好奇的是，大家认为框架在哪些方面**无法**弥补差距——我的看法是硬性推理/长期任务以及尾部失败行为。你的经验是什么？

查看原文

模型是CPU，不是整台电脑——为什么智能体性能的提升，框架与模型升级同等重要

相似文章

同一模型，不同框架：性能波动高达30-50个百分点。但团队依然仅凭模型名称来挑选智能体。

@sydneyrunkle: 假设智能体 = 模型 + 工具套件。不幸的是，好的模型越来越贵！所以你需要一个出色的工具套件来…

观察：每个模型的最佳代理框架将由模型开发者自身提供

停止在不公开执行框架的情况下比较LLM智能体

你的框架辜负了你的智能体，但却没有基准来证明这一点

提交意见反馈