自动化智能体评估的实证研究

arXiv cs.CL 论文

摘要

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

arXiv:2605.11378v1 宣布类型:新论文 摘要:智能体评估需要评估涉及工具使用和中间推理的复杂多步行为,这使得评估过程成本高昂且高度依赖专业知识。由此产生了一个自然的问题:前沿的编程助手能否可靠地自动化这一评估流程?我们的研究表明,仅通过提示编程助手不足以完成此任务。缺乏特定的领域评估知识时,前沿编程助手的执行成功率仅为 30%,并会产生过度设计的评估方案,平均每个智能体包含 12 项以上的指标,这表明强大的编程能力并不能自动转化为可靠的智能体评估能力。我们引入了 EvalAgent,这是一种自动化端到端智能体评估流程的 AI 助手。EvalAgent 将评估领域的专业知识编码为评估技能(包括过程指令、可复用代码和模板,以及动态检索的 API 文档),这些技能组合成基于轨迹的管道,生成完整的评估产物,包括指标、可执行代码和报告。为了系统地评估生成的评估方案,我们引入了一个元评估框架以及 AgentEvalBench,这是一个包含 20 个智能体的基准测试,每个智能体都配有评估需求和测试场景。我们进一步提出了 Eval@1 指标,用于衡量生成的评估代码是否能在首次运行时既成功执行又产生有意义的结果。我们的实验表明,EvalAgent 能够生成聚焦的评估方案,将 Eval@1 从 17.5% 提升至 65%,并在与基线方法的比较中获得了 79.5% 的人类专家偏好。进一步的消融研究表明,评估技能对于处理复杂评估至关重要:移除这些技能会导致 Eval@1 从 65% 显著下降至 30%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:11

# 自动化智能体评估的实证研究
来源: https://arxiv.org/abs/2605.11378
作者:Kang Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+K),Sangmin Woo (https://arxiv.org/search/cs?searchtype=author&query=Woo,+S),Haibo Ding (https://arxiv.org/search/cs?searchtype=author&query=Ding,+H),Kiran Ramnath (https://arxiv.org/search/cs?searchtype=author&query=Ramnath,+K),Subramanian Chidambaram (https://arxiv.org/search/cs?searchtype=author&query=Chidambaram,+S),Aosong Feng (https://arxiv.org/search/cs?searchtype=author&query=Feng,+A),Vinayak Arannil (https://arxiv.org/search/cs?searchtype=author&query=Arannil,+V),Muhyun Kim (https://arxiv.org/search/cs?searchtype=author&query=Kim,+M),Ishan Singh (https://arxiv.org/search/cs?searchtype=author&query=Singh,+I),Darren Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+D),Zhichao Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+Z),Megha Gandhi (https://arxiv.org/search/cs?searchtype=author&query=Gandhi,+M),Nirmal Prabhu (https://arxiv.org/search/cs?searchtype=author&query=Prabhu,+N),Soumya Smruti Mishra (https://arxiv.org/search/cs?searchtype=author&query=Mishra,+S+S),Vivek Singh (https://arxiv.org/search/cs?searchtype=author&query=Singh,+V),Gouri Pandeshwar (https://arxiv.org/search/cs?searchtype=author&query=Pandeshwar,+G),Lin Lee Cheong (https://arxiv.org/search/cs?searchtype=author&query=Cheong,+L+L)

查看 PDF (https://arxiv.org/pdf/2605.11378)

> 摘要:智能体评估需要评估涉及工具使用和中间推理的复杂多步骤行为,这使得评估过程成本高昂且依赖专家知识。一个自然的问题是:前沿代码辅助智能体能否可靠地自动化这一评估过程?我们的研究表明,仅通过提示代码辅助智能体不足以完成此任务。缺乏特定领域的评估知识时,前沿代码辅助智能体的执行成功率仅为 30%,并且生成的评估方案往往过度设计,平均每个智能体包含 12 个以上的指标,这表明强大的编码能力并不能自动转化为可靠的智能体评估能力。我们介绍了 EvalAgent,一个能够自动化端到端智能体评估流程的 AI 助手。EvalAgent 将评估领域的专业知识编码为评估技能(包括过程指令、可复用代码和模板,以及动态检索的 API 文档),这些技能组合成一个基于追踪的管道,生成完整的评估制品,包括指标、可执行代码和报告。为了系统地评估生成的评估方案,我们引入了一个元评估框架以及 AgentEvalBench 基准,该基准包含 20 个智能体,每个智能体都配有评估需求和测试场景。我们进一步提出了 Eval@1 指标,用于衡量生成的评估代码是否能在首次运行时既成功执行又产生有意义的结果。我们的实验表明,EvalAgent 生成了更加聚焦的评估,将 Eval@1 从 17.5% 提升至 65%,并在与基线方法的对比中获得了 79.5% 的人类专家偏好。进一步的消融研究表明,评估技能对于处理复杂评估至关重要:移除这些技能会导致 Eval@1 从 65% 显著下降至 30%。

## 提交历史

来自: Sangmin Woo [查看邮件 (https://arxiv.org/show-email/e217f31a/2605.11378)] **[v1]**2026 年 5 月 12 日 星期二,01:06:34 UTC(13,103 KB)

相似文章

解密 AI Agent 的评测方法

Anthropic Engineering

Anthropic 发布了一份指南,介绍如何为 AI Agent 设计严谨的自动化评测方案,重点解决了多轮交互和状态修改带来的复杂性挑战。

推出 AgentKit、新的 Evals 和用于代理的 RFT

OpenAI Blog

OpenAI 推出了 AgentKit,这是一套用于构建、部署和优化代理的综合工具套件,包括可视化 Agent Builder、用于企业数据管理的 Connector Registry,以及扩展的评估功能,包括新数据集和自动提示优化功能。

APIEval-20

Product Hunt

APIEval-20是一个开放的基准测试,用于评估AI代理测试API的能力。