AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比
摘要
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
>**Artificial Analysis Coding Agent Index 包含 3 个主要基准测试,代表了广泛的编程代理应用场景:** ➤ **SWE-Bench-Pro-Hard-AA**,源自 Scale AI 的 SWE-Bench Pro,包含 150 个前沿模型难以处理的真实编程任务 ➤ **Terminal-Bench v2**,来自 Laude Institute 的 84 个代理终端任务,涵盖系统管理、密码学到机器学习等领域(其中 5 个任务因环境不兼容被过滤) ➤ **SWE-Atlas-QnA**,由 Scale AI 开发的 124 个技术问题,涉及代码行为、问题根本原因等,要求代理探索代码库并给出文字回答 更多细节见其 X 帖子:[Artificial Analysis on X](https://x.com/ArtificialAnlys/status/2053865095076438427/photo/1)
相似文章
合并你PR的智能体,尚无基准可循。
Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。
EvoCode-Bench:在多轮迭代交互中评估编码代理
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。