@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755
摘要
AgentScope团队推出了PawBench,这是一个用于评估模型与代理框架综合性能的基准测试。通过对4,050个测试单元的分析,结果表明框架选择的影响堪比模型升级。
查看缓存全文
缓存时间: 2026/06/17 09:52
从评估 4050 次代理运行中我们学到的东西
代理已不再是研究演示。如今,它们编写代码、浏览网页、操作文件,并完成多步骤工作流。但当代理失败时,回答一个简单问题却异常困难:
是模型能力不足——还是执行框架未能正确支持它?
为了回答这个问题,AgentScope 团队推出了 PawBench,这是一个专门为评估模型与代理执行框架的联合性能而设计的基准测试。
- 项目地址: https://github.com/agentscope-ai/PawBench
- 排行榜: https://agentscope-ai.github.io/PawBench/
- OpenJudge: https://github.com/agentscope-ai/OpenJudge
- OpenJudge 网站: https://openjudge.me/
PawBench 是 OpenJudge 生态系统的一部分。它继承了 OpenJudge 以评估驱动优化的理念,特别关注 LLM × 执行框架的联合效果。
评估代理,而不仅仅是模型
大多数基准测试仅评估模型本身。然而,在现实世界中,代理从未以这种方式部署。实际上,模型决定了代理可能做什么;而执行框架则决定了这种能力能否可靠地转化为成功的任务执行。
代理性能 = f(模型, 执行框架)
PawBench v1.0 包含:
- 150 个真实世界的代理任务
- 9 个基础模型
- 3 个生产级执行框架:Hermes、OpenClaw、QwenPaw
该基准测试评估每一种组合:9 个模型 × 3 个执行框架 × 150 个任务 = 4050 个测试单元
这 150 个任务来源于六个高质量的代理基准测试:claweval、qwenclawbench、pinchbench、qwenpawbench、skillsbench 和 wildclawbench。每个任务都按五个维度进行标记:应用场景、原子能力、复杂度、输入模态和运行环境。所有任务都在 Docker 沙箱内运行,并且完全可追溯,使得可以将基准测试得分与实际的执行行为联系起来。最终得分结合了自动化评分器(包括规则检查和子断言)以及用于更具语义性输出的 LLM 作为评判者。得分归一化到 0–1 范围,并在本文中以百分比报告。
结果:代理性能同时取决于模型和执行框架
从文本任务矩阵开始。
- 模型和执行框架共同影响代理性能。 强大的模型依然稳健:claude-opus-4.6 在所有执行框架上均保持在 76 以上。但较弱的模型对执行框架更敏感:qwen3.6-35b-a3b 从 Hermes 上的 57.9 移动到 QwenPaw 上的 70.4。
- 执行框架之间的差距相当于一次模型升级。 在文本任务上,QwenPaw (75.4) 领先于 OpenClaw (74.8) 和 Hermes (70.0),产生了 5.5 个百分点的差距。在某些情况下,更好的执行框架可以缩小甚至逆转模型排名:例如,qwen3.6-plus + QwenPaw (76.5) 优于 qwen3.6-max-preview + Hermes (70.2)。
结论很简单:
模型能力仍然重要,但执行框架可以引入可衡量的性能差异。
排行榜只是起点。更有趣的问题是:那些缺失的分数究竟来自哪里?
切片分析:理解差距
模型差异之处:按切片的优势和劣势
在 4050 个测试单元中,一个清晰的模式浮现出来:模型不仅得分不同——它们失败的方式也不同。为了首先关注模型端的差异,我们将执行框架固定为 QwenPaw,并按任务标签对相同提交进行切片。
- 根据任务类型选择模型: claude-opus-4.6 按总分位于第一梯队,平均表现强劲且稳定性好。但一旦按场景细分,它只在 11 个任务类别中的 4 个中领先。领域领先性迅速变化:qwen3.6-max-preview 在制造工程和软件工程中领先,而 qwen3.7-max 在数据分析中领先。在实践中,模型选择应从工作负载开始,而不是排行榜排名。
- Qwen3.6 35B/A3B 对比 Max:差距表现在长周期任务中: 小型到大型的差距主要出现在长周期任务中。在 Qwen 内部,规模对于简单的 Q&A 影响不大,但对于需要多步推理的数学计算、规划和工具使用影响更大。在这些方面,qwen3.6-max-preview 是最均衡的,而 qwen3.7-max 在开放环境和数据分析任务中更强。
- 多模态仍是一个共同的薄弱点: 在 QwenPaw 下,所有模型在多模态上的表现都低于文本:-6.1 (claude-opus-4.6),-8.0 (deepseek-v4-pro),-12.4 (qwen3.6-35b-a3b)。这指向了跨图像理解、信息提取、跨模态推理和工具链交接的系统性挑战。
修复执行框架可以澄清模型差异。接下来的问题是这些差距如何在不同执行框架设计之间变化。
模型 × 执行框架配对:三个交互切片
PawBench 可以根据模型大小、模态、任务类型、技能领域等对 4050 个测试单元进行切片,然后将这些切片与执行轨迹进行比较。这展示了模型能力和执行框架行为如何相互作用。
发现 #1:较小模型需要执行框架来稳定执行
从两个极端开始。claude-opus-4.6 在不同执行框架间稳定(2.3 个百分点差距),而 qwen3.6-35b-a3b 仅因执行框架不同就变化了 11.5 个百分点。这种差距显示了一个清晰的模式:较大模型可以补偿缺失的上下文:它们推断路径、过滤更大的工具列表,并检查工件是否实际生成。较小模型更脆弱。它们会丢失当前工作目录的跟踪,错误判断文件是否已写入,或者当工具列表过大时选择错误的第一个工具。
轨迹分析指出了三个常见的失败来源:
- 缺少工件级验证: 许多执行框架依赖模型说“完成”而不是检查文件、测试或输出。这使得过早完成变得容易。
- 路径感知和约束松散: 例如,Hermes 没有将当前工作目录清晰地注入提示中,也没有在像 write_file 这样的工具中严格约束写入路径。模型可能认为它成功写入了文件,而评分器在标准工作区中找不到该文件。
- 工具过载: 工具数量差异很大(Hermes ~65,OpenClaw ~30,QwenPaw ~15)。较大的工具集通常通过增加决策成本来伤害较小模型。
结论不是小模型弱,而是它们更依赖执行框架的结构。
发现 #2:技能使用需要执行框架发现和模型跟进
许多开发者将项目特定的技能直接存储在工作区中。PawBench 模拟了这种设置,以评估执行框架能否发现并利用它们。
在所有三个执行框架中,与技能相关的任务始终比工具使用、规划或推理等类别更困难。 有两个问题突出:
- 执行框架端的发现差距: 除了 OpenClaw,另外两个执行框架不会主动扫描工作区以寻找本地技能,导致代理错过有价值的任务特定指导。
- 模型端的执行差距: 即使执行框架注入技能并放置路标,模型仍然可能在复杂推理或精确计算期间失败。执行框架可以指明方向;基础模型仍然必须沿着路径走。
因此,成功需要两者兼备:执行框架必须清晰地展示技能(名称、范围、用法),模型必须可靠地决定调用它们。如果任何一方失败,模型就会绕过技能,尝试用一般推理来解决问题。
发现 #3:网络搜索任务很大程度上依赖于默认可用性
网络搜索任务测试模型搜索网络、获取内容并进行更深入研究的能力。PawBench 不假设每个搜索 API 密钥都已配置的最佳情况。相反,它重现了默认的开发者体验:克隆一个固定版本,添加 LLM 密钥,然后运行。
我们发现:
- Hermes 包含网络搜索功能,但在这些工具可用之前需要外部搜索 API 密钥,因此在这些任务上表现不理想。
- OpenClaw 有更好的默认体验:web_search 可以使用无需密钥的服务(如 DuckDuckGo),web_fetch 依赖于内置的 HTTP 获取。
- QwenPaw 没有专门的搜索工具,但其 browser_use 工具加上模型知识仍然可以处理基本的网络访问。
重要的是,结果既反映了模型的能力,也反映了执行框架是否使搜索在默认情况下可用。轨迹行为显示了一个分歧:
- 强模型适应: 当搜索失败时,它们切换到 终端 + curl、DOM 检查和长页面提取。
- 弱模型停滞: 它们重复导航或得出结论认为任务不可行。
换句话说,强模型可以绕过缺失的工具;弱模型依赖于执行框架保持搜索路径稳定和明确。
模型和执行框架的四个协同设计原则
基于基准测试结果,我们相信有效的执行框架应遵循四个简单原则:
- 不要隐藏信息。 模型无法对它们没有的信息采取行动。告诉模型它在哪里、存在哪些资源、预期输出是什么。永远不要假设模型会推断出这些细节。
- 工具应既充分又高效。 提供重要的工具,确保关键工具默认可用,但避免用不必要的选项压倒模型。
- 不要相信模型说的话。 验证工件、文件、输出和执行结果,而不是仅仅依赖代理的自我报告。许多失败如果框架提供有用的反馈和重试机会,是可以恢复的。
- 从卡住中恢复。 提供关键信息,如当前状态、缺失的需求和现有工件,并给模型一个结构化的恢复机会。
为 PawBench 做出贡献
PawBench 帮助代理用户为其工作负载找到最佳的模型-执行框架组合,并为执行框架开发者提供衡量和改进系统的方法。PawBench 最重要的结果不是哪个模型排名第一。而是代理性能不仅仅是模型本身的属性。
PawBench v1.0 完全开源,我们欢迎来自社区的新执行框架、模型、任务和贡献。
- 项目地址: https://github.com/agentscope-ai/PawBench
- 排行榜: https://agentscope-ai.github.io/PawBench/
- 完整博客: https://agentscope-ai.github.io/PawBench/en/blog/PAWBENCH_MODEL_HARNESS_BLOG_EN/
相似文章
你的框架辜负了你的智能体,但却没有基准来证明这一点
本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。
合并你PR的智能体,尚无基准可循。
Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。
AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
观察:每个模型的最佳代理框架将由模型开发者自身提供
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
Claw-SWE-Bench:一个用于评估OpenClaw风格编码任务代理框架的基准测试
Claw-SWE-Bench是一个新的基准测试和适配器协议,它标准化了在SWE-bench风格任务上比较不同编码代理的评估条件,揭示了适配器设计对性能和成本有显著影响。