AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准

Hugging Face Daily Papers 论文

摘要

AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。

随着强化学习持续扩展基于大语言模型的智能体训练,在复杂环境中可靠验证智能体行为变得愈发困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型,难以在狭窄领域之外泛化。Agent-as-a-Judge 通过与环境和工具主动交互获取可验证证据,克服了这一局限,但其能力仍待深入探索。 我们推出 AJ-Bench 基准,系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面考察裁判智能体的信息获取、状态验证与过程验证能力。实验表明,相比 LLM-as-a-Judge 基线,Agent-as-a-Judge 性能持续提升,同时揭示了基于智能体的验证仍面临重大开放挑战。数据与代码已开源:https://aj-bench.github.io/。
查看原文
查看缓存全文

缓存时间: 2026/04/22 10:35

论文页面 - AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 基准测试

来源:https://huggingface.co/papers/2604.18240
作者:

,

,

,

,

,

,

,

,

,

摘要

Agent-as-a-Judge 基准测试在多个领域评估自动验证能力,提供全面的任务评估。
随着强化学习(https://huggingface.co/papers?q=reinforcement%20learning)不断扩展基于大语言模型智能体的训练规模,在复杂环境中可靠验证智能体行为变得越来越困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge(https://huggingface.co/papers?q=LLM-as-a-Judge)模型,难以泛化到狭窄领域之外。Agent-as-a-Judge(https://huggingface.co/papers?q=Agent-as-a-Judge)通过与环境和工具主动交互获取可验证证据,克服了这一局限,但其能力仍未被充分探索。我们提出基准 AJ-Bench(https://huggingface.co/papers?q=AJ-Bench),系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面评估裁判智能体在信息获取(https://huggingface.co/papers?q=information%20acquisition)、状态验证(https://huggingface.co/papers?q=state%20verification)与过程验证(https://huggingface.co/papers?q=process%20verification)方面的能力。实验表明,相比 LLM-as-a-Judge 基线,Agent-as-a-Judge 性能持续提升,同时揭示了基于智能体验证(https://huggingface.co/papers?q=agent-based%20verification)仍面临重大开放挑战。数据与代码见 https://aj-bench.github.io/。

查看 arXiv 页面(https://arxiv.org/abs/2604.18240)
查看 PDF(https://arxiv.org/pdf/2604.18240)
项目主页(https://aj-bench.github.io/)
GitHub0(https://github.com/aj-bench/AJ-Bench)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18240)

在智能体中获取该论文:

hf papers read 2604.18240

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。

包含该论文的合集 0

暂无合集包含此论文

将论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示链接。

相似文章

JobBench:让智能体工作与人类意愿对齐

arXiv cs.AI

JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。