AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比

Reddit r/singularity 新闻

摘要

Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。

>**Artificial Analysis Coding Agent Index 包含 3 个主要基准测试,代表了广泛的编程代理应用场景:** ➤ **SWE-Bench-Pro-Hard-AA**,源自 Scale AI 的 SWE-Bench Pro,包含 150 个前沿模型难以处理的真实编程任务 ➤ **Terminal-Bench v2**,来自 Laude Institute 的 84 个代理终端任务,涵盖系统管理、密码学到机器学习等领域(其中 5 个任务因环境不兼容被过滤) ➤ **SWE-Atlas-QnA**,由 Scale AI 开发的 124 个技术问题,涉及代码行为、问题根本原因等,要求代理探索代码库并给出文字回答 更多细节见其 X 帖子:[Artificial Analysis on X](https://x.com/ArtificialAnlys/status/2053865095076438427/photo/1)
查看原文

相似文章

合并你PR的智能体,尚无基准可循。

Reddit r/AI_Agents

Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。