@0xLogicrw: 阿里通义实验室推出智能体评测基准 PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试,包含 150 道真实任务与 4050 …
摘要
阿里通义实验室推出智能体评测基准PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系,覆盖9个模型和3个框架,含150个任务,发现框架设计对智能体性能影响显著,并提出四项设计原则。
查看缓存全文
缓存时间: 2026/06/05 15:15
阿里通义实验室推出智能体评测基准 PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试,包含 150 道真实任务与 4050 个测试单元。
结果表明,运行框架的设计直接决定了智能体能力是否能稳定落地。在模型相同的情况下,三款框架存在明显的性能极差,QwenPaw 得分 76.4,OpenClaw 得分 75.4,而 Hermes 仅为 70.4。6.4 分的差距堪比一次重大的模型版本升级。
优秀的设计甚至能让小模型实现「下克上」:在 Hermes 框架中 GLM 5.1 仅得 68.2 分,而在 QwenPaw 框架下较小规模的 Qwen3.6-35b-a3b 却拿到了 70.4 分。
通过分析运行轨迹,框架表现差异源于对工作区产物缺乏实质校验、工具路径约束宽松以及工具表过大增加了模型决策负担。多数框架在本地专属技能(Skill)的主动发现以及网页搜索的零配置可用性上也存在明显短板。
评测团队提出了框架设计的四项基本原则:
一是充分告知(Inform Fully),明确 cwd 与工作区等环境上下文; 二是按需装备(Equip on Demand),控制工具数量并确保免密搜索等关键工具默认可用; 三是主动监控(Monitor Actively),校验文件写入等任务产物是否真正落地; 四是弹性恢复(Recover Gracefully),在工具异常或产物缺失时提供纠偏续推机会。
相似文章
@RookieRicardoR: 国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能…
用户测试了Qwen3.7-Max,认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型,推理能力显著提升,且迭代速度月更,已成为国产第一梯队。
@Sentdex: 对于那些不确定的人,这就是发布模型并讨论性能的正确方式,而不是只挑选3-5个基准测试……
Sentdex的一条推文强调了阿里巴巴通义千问在Qwen3.7-Max模型上的透明基准报告,与那些挑选基准的其他人形成对比。
@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……
阿里巴巴发布了通义千问 3.7 Max,一款专为智能体时代设计的旗舰编码模型。该模型在长周期自主执行、前端生成和3D场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越,是接近前沿的中国模型。
介绍 BenchBench(5分钟阅读)
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286
作者对DeepSeek V4、Kimi K2.6、GLM-5.1和MiniMax M2.7四款国产AI模型进行了横向对比测试,分析了它们在成本、长上下文处理能力、编程稳定性及推理性能上的优劣,并给出了针对大文档分析、长程后台任务和批量内容生产的具体分流建议。