@0xLogicrw: 阿里通义实验室推出智能体评测基准 PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试，包含 150 道真实任务与 4050 …

X AI KOLs Timeline 2026/06/05 11:25 工具

agent-benchmark framework-evaluation model-evaluation ai-frameworks tongyi-lab qwen

摘要

阿里通义实验室推出智能体评测基准PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系，覆盖9个模型和3个框架，含150个任务，发现框架设计对智能体性能影响显著，并提出四项设计原则。

阿里通义实验室推出智能体评测基准 PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试，包含 150 道真实任务与 4050 个测试单元。结果表明，运行框架的设计直接决定了智能体能力是否能稳定落地。在模型相同的情况下，三款框架存在明显的性能极差，QwenPaw 得分 76.4，OpenClaw 得分 75.4，而 Hermes 仅为 70.4。6.4 分的差距堪比一次重大的模型版本升级。优秀的设计甚至能让小模型实现「下克上」：在 Hermes 框架中 GLM 5.1 仅得 68.2 分，而在 QwenPaw 框架下较小规模的 Qwen3.6-35b-a3b 却拿到了 70.4 分。通过分析运行轨迹，框架表现差异源于对工作区产物缺乏实质校验、工具路径约束宽松以及工具表过大增加了模型决策负担。多数框架在本地专属技能（Skill）的主动发现以及网页搜索的零配置可用性上也存在明显短板。评测团队提出了框架设计的四项基本原则：一是充分告知（Inform Fully），明确 cwd 与工作区等环境上下文；二是按需装备（Equip on Demand），控制工具数量并确保免密搜索等关键工具默认可用；三是主动监控（Monitor Actively），校验文件写入等任务产物是否真正落地；四是弹性恢复（Recover Gracefully），在工具异常或产物缺失时提供纠偏续推机会。

查看原文

查看缓存全文

缓存时间: 2026/06/05 15:15

阿里通义实验室推出智能体评测基准 PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试，包含 150 道真实任务与 4050 个测试单元。

结果表明，运行框架的设计直接决定了智能体能力是否能稳定落地。在模型相同的情况下，三款框架存在明显的性能极差，QwenPaw 得分 76.4，OpenClaw 得分 75.4，而 Hermes 仅为 70.4。6.4 分的差距堪比一次重大的模型版本升级。

优秀的设计甚至能让小模型实现「下克上」：在 Hermes 框架中 GLM 5.1 仅得 68.2 分，而在 QwenPaw 框架下较小规模的 Qwen3.6-35b-a3b 却拿到了 70.4 分。

通过分析运行轨迹，框架表现差异源于对工作区产物缺乏实质校验、工具路径约束宽松以及工具表过大增加了模型决策负担。多数框架在本地专属技能（Skill）的主动发现以及网页搜索的零配置可用性上也存在明显短板。

评测团队提出了框架设计的四项基本原则：

一是充分告知（Inform Fully），明确 cwd 与工作区等环境上下文；二是按需装备（Equip on Demand），控制工具数量并确保免密搜索等关键工具默认可用；三是主动监控（Monitor Actively），校验文件写入等任务产物是否真正落地；四是弹性恢复（Recover Gracefully），在工具异常或产物缺失时提供纠偏续推机会。

相似文章

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

X AI KOLs Timeline

用户测试了Qwen3.7-Max，认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型，推理能力显著提升，且迭代速度月更，已成为国产第一梯队。

@0xLogicrw: 阿里通义实验室推出智能体评测基准 PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试，包含 150 道真实任务与 4050 …

相似文章

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

@Sentdex: 对于那些不确定的人，这就是发布模型并讨论性能的正确方式，而不是只挑选3-5个基准测试……

@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

介绍 BenchBench（5分钟阅读）

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

提交意见反馈

相似文章

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max，说几点真实感受。 昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

@Sentdex: 对于那些不确定的人，这就是发布模型并讨论性能的正确方式，而不是只挑选3-5个基准测试……

@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

介绍 BenchBench（5分钟阅读）

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

提交意见反馈

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…