@0xLogicrw: 阿里通义实验室推出智能体评测基准 PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试,包含 150 道真实任务与 4050 …

X AI KOLs Timeline 工具

摘要

阿里通义实验室推出智能体评测基准PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系,覆盖9个模型和3个框架,含150个任务,发现框架设计对智能体性能影响显著,并提出四项设计原则。

阿里通义实验室推出智能体评测基准 PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试,包含 150 道真实任务与 4050 个测试单元。 结果表明,运行框架的设计直接决定了智能体能力是否能稳定落地。在模型相同的情况下,三款框架存在明显的性能极差,QwenPaw 得分 76.4,OpenClaw 得分 75.4,而 Hermes 仅为 70.4。6.4 分的差距堪比一次重大的模型版本升级。 优秀的设计甚至能让小模型实现「下克上」:在 Hermes 框架中 GLM 5.1 仅得 68.2 分,而在 QwenPaw 框架下较小规模的 Qwen3.6-35b-a3b 却拿到了 70.4 分。 通过分析运行轨迹,框架表现差异源于对工作区产物缺乏实质校验、工具路径约束宽松以及工具表过大增加了模型决策负担。多数框架在本地专属技能(Skill)的主动发现以及网页搜索的零配置可用性上也存在明显短板。 评测团队提出了框架设计的四项基本原则: 一是充分告知(Inform Fully),明确 cwd 与工作区等环境上下文; 二是按需装备(Equip on Demand),控制工具数量并确保免密搜索等关键工具默认可用; 三是主动监控(Monitor Actively),校验文件写入等任务产物是否真正落地; 四是弹性恢复(Recover Gracefully),在工具异常或产物缺失时提供纠偏续推机会。
查看原文
查看缓存全文

缓存时间: 2026/06/05 15:15

阿里通义实验室推出智能体评测基准 PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试,包含 150 道真实任务与 4050 个测试单元。

结果表明,运行框架的设计直接决定了智能体能力是否能稳定落地。在模型相同的情况下,三款框架存在明显的性能极差,QwenPaw 得分 76.4,OpenClaw 得分 75.4,而 Hermes 仅为 70.4。6.4 分的差距堪比一次重大的模型版本升级。

优秀的设计甚至能让小模型实现「下克上」:在 Hermes 框架中 GLM 5.1 仅得 68.2 分,而在 QwenPaw 框架下较小规模的 Qwen3.6-35b-a3b 却拿到了 70.4 分。

通过分析运行轨迹,框架表现差异源于对工作区产物缺乏实质校验、工具路径约束宽松以及工具表过大增加了模型决策负担。多数框架在本地专属技能(Skill)的主动发现以及网页搜索的零配置可用性上也存在明显短板。

评测团队提出了框架设计的四项基本原则:

一是充分告知(Inform Fully),明确 cwd 与工作区等环境上下文; 二是按需装备(Equip on Demand),控制工具数量并确保免密搜索等关键工具默认可用; 三是主动监控(Monitor Actively),校验文件写入等任务产物是否真正落地; 四是弹性恢复(Recover Gracefully),在工具异常或产物缺失时提供纠偏续推机会。

相似文章

介绍 BenchBench(5分钟阅读)

TLDR AI

介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

X AI KOLs Timeline

作者对DeepSeek V4、Kimi K2.6、GLM-5.1和MiniMax M2.7四款国产AI模型进行了横向对比测试,分析了它们在成本、长上下文处理能力、编程稳定性及推理性能上的优劣,并给出了针对大文档分析、长程后台任务和批量内容生产的具体分流建议。