AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
摘要
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
查看缓存全文
缓存时间: 2026/04/22 10:35
论文页面 - AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 基准测试
来源:https://huggingface.co/papers/2604.18240
作者:
,
,
,
,
,
,
,
,
,
摘要
Agent-as-a-Judge 基准测试在多个领域评估自动验证能力,提供全面的任务评估。
随着强化学习(https://huggingface.co/papers?q=reinforcement%20learning)不断扩展基于大语言模型智能体的训练规模,在复杂环境中可靠验证智能体行为变得越来越困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge(https://huggingface.co/papers?q=LLM-as-a-Judge)模型,难以泛化到狭窄领域之外。Agent-as-a-Judge(https://huggingface.co/papers?q=Agent-as-a-Judge)通过与环境和工具主动交互获取可验证证据,克服了这一局限,但其能力仍未被充分探索。我们提出基准 AJ-Bench(https://huggingface.co/papers?q=AJ-Bench),系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面评估裁判智能体在信息获取(https://huggingface.co/papers?q=information%20acquisition)、状态验证(https://huggingface.co/papers?q=state%20verification)与过程验证(https://huggingface.co/papers?q=process%20verification)方面的能力。实验表明,相比 LLM-as-a-Judge 基线,Agent-as-a-Judge 性能持续提升,同时揭示了基于智能体验证(https://huggingface.co/papers?q=agent-based%20verification)仍面临重大开放挑战。数据与代码见 https://aj-bench.github.io/。
查看 arXiv 页面(https://arxiv.org/abs/2604.18240)
查看 PDF(https://arxiv.org/pdf/2604.18240)
项目主页(https://aj-bench.github.io/)
GitHub0(https://github.com/aj-bench/AJ-Bench)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18240)
在智能体中获取该论文:
hf papers read 2604.18240
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。
包含该论文的合集 0
暂无合集包含此论文
将论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示链接。
相似文章
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
部分证据基准:对智能体系统中授权受限证据的评估
本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。
MLE-bench:评估机器学习代理在机器学习工程中的表现
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
SWE-WebDevBench:评估编码智能体应用平台作为虚拟软件代理商的能力
本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。