AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比

Reddit r/singularity 2026/05/11 23:25 新闻

摘要

Artificial Analysis 推出了 Coding Agent Index，这是一套新的基准测试套件，结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA，旨在评估 AI 编程代理在多样化任务中的表现。

>**Artificial Analysis Coding Agent Index 包含 3 个主要基准测试，代表了广泛的编程代理应用场景：** ➤ **SWE-Bench-Pro-Hard-AA**，源自 Scale AI 的 SWE-Bench Pro，包含 150 个前沿模型难以处理的真实编程任务 ➤ **Terminal-Bench v2**，来自 Laude Institute 的 84 个代理终端任务，涵盖系统管理、密码学到机器学习等领域（其中 5 个任务因环境不兼容被过滤） ➤ **SWE-Atlas-QnA**，由 Scale AI 开发的 124 个技术问题，涉及代码行为、问题根本原因等，要求代理探索代码库并给出文字回答更多细节见其 X 帖子：[Artificial Analysis on X](https://x.com/ArtificialAnlys/status/2053865095076438427/photo/1)

查看原文

AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比

相似文章

合并你PR的智能体，尚无基准可循。

SaaSBench：探索编码智能体在长周期企业SaaS工程中的边界

EvoCode-Bench：在多轮迭代交互中评估编码代理

我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

自动化智能体评估的实证研究

提交意见反馈