AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准

Hugging Face Daily Papers 论文

摘要

AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。

随着强化学习持续扩展基于大语言模型的智能体训练,在复杂环境中可靠验证智能体行为变得愈发困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型,难以在狭窄领域之外泛化。Agent-as-a-Judge 通过与环境和工具主动交互获取可验证证据,克服了这一局限,但其能力仍待深入探索。 我们推出 AJ-Bench 基准,系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面考察裁判智能体的信息获取、状态验证与过程验证能力。实验表明,相比 LLM-as-a-Judge 基线,Agent-as-a-Judge 性能持续提升,同时揭示了基于智能体的验证仍面临重大开放挑战。数据与代码已开源:https://aj-bench.github.io/。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 10:35

论文页面 - AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 基准测试

来源:https://huggingface.co/papers/2604.18240
作者:

,

,

,

,

,

,

,

,

,

摘要

Agent-as-a-Judge 基准测试在多个领域评估自动验证能力,提供全面的任务评估。
随着强化学习(https://huggingface.co/papers?q=reinforcement%20learning)不断扩展基于大语言模型智能体的训练规模,在复杂环境中可靠验证智能体行为变得越来越困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge(https://huggingface.co/papers?q=LLM-as-a-Judge)模型,难以泛化到狭窄领域之外。Agent-as-a-Judge(https://huggingface.co/papers?q=Agent-as-a-Judge)通过与环境和工具主动交互获取可验证证据,克服了这一局限,但其能力仍未被充分探索。我们提出基准 AJ-Bench(https://huggingface.co/papers?q=AJ-Bench),系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面评估裁判智能体在信息获取(https://huggingface.co/papers?q=information%20acquisition)、状态验证(https://huggingface.co/papers?q=state%20verification)与过程验证(https://huggingface.co/papers?q=process%20verification)方面的能力。实验表明,相比 LLM-as-a-Judge 基线,Agent-as-a-Judge 性能持续提升,同时揭示了基于智能体验证(https://huggingface.co/papers?q=agent-based%20verification)仍面临重大开放挑战。数据与代码见 https://aj-bench.github.io/。

查看 arXiv 页面(https://arxiv.org/abs/2604.18240)
查看 PDF(https://arxiv.org/pdf/2604.18240)
项目主页(https://aj-bench.github.io/)
GitHub0(https://github.com/aj-bench/AJ-Bench)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18240)

在智能体中获取该论文:

hf papers read 2604.18240

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。

包含该论文的合集 0

暂无合集包含此论文

将论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示链接。

相似文章

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。

部分证据基准:对智能体系统中授权受限证据的评估

arXiv cs.AI

本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。

MLE-bench:评估机器学习代理在机器学习工程中的表现

OpenAI Blog

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程