agent-benchmark

标签

Cards List
#agent-benchmark

@0xLogicrw: 阿里通义实验室推出智能体评测基准 PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试,包含 150 道真实任务与 4050 …

X AI KOLs Timeline · 2026-06-05 缓存

阿里通义实验室推出智能体评测基准PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系,覆盖9个模型和3个框架,含150个任务,发现框架设计对智能体性能影响显著,并提出四项设计原则。

0 人收藏 0 人点赞
#agent-benchmark

Claude Opus 4.8 宣称是唯一在 Super-Agent 基准测试中完成所有案例的模型。有人在实际代理中运行过它吗?

Reddit r/AI_Agents · 2026-05-29

Anthropic 发布了 Claude Opus 4.8,声称它是唯一在 Super-Agent 基准测试中完成所有案例的模型,并且在浏览器/计算机使用任务上优于 GPT-5.5,工具效率更高,未修正的代码缺陷更少。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈