AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

AJ-Bench 提出一套评测基准，用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力，覆盖搜索、数据系统与 GUI 领域的 155 项任务。

随着强化学习持续扩展基于大语言模型的智能体训练，在复杂环境中可靠验证智能体行为变得愈发困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型，难以在狭窄领域之外泛化。Agent-as-a-Judge 通过与环境和工具主动交互获取可验证证据，克服了这一局限，但其能力仍待深入探索。我们推出 AJ-Bench 基准，系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面考察裁判智能体的信息获取、状态验证与过程验证能力。实验表明，相比 LLM-as-a-Judge 基线，Agent-as-a-Judge 性能持续提升，同时揭示了基于智能体的验证仍面临重大开放挑战。数据与代码已开源：https://aj-bench.github.io/。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 10:35

论文页面 - AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 基准测试

来源：https://huggingface.co/papers/2604.18240
作者：

摘要

Agent-as-a-Judge 基准测试在多个领域评估自动验证能力，提供全面的任务评估。
随着强化学习（https://huggingface.co/papers?q=reinforcement%20learning）不断扩展基于大语言模型智能体的训练规模，在复杂环境中可靠验证智能体行为变得越来越困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge（https://huggingface.co/papers?q=LLM-as-a-Judge）模型，难以泛化到狭窄领域之外。Agent-as-a-Judge（https://huggingface.co/papers?q=Agent-as-a-Judge）通过与环境和工具主动交互获取可验证证据，克服了这一局限，但其能力仍未被充分探索。我们提出基准 AJ-Bench（https://huggingface.co/papers?q=AJ-Bench），系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面评估裁判智能体在信息获取（https://huggingface.co/papers?q=information%20acquisition）、状态验证（https://huggingface.co/papers?q=state%20verification）与过程验证（https://huggingface.co/papers?q=process%20verification）方面的能力。实验表明，相比 LLM-as-a-Judge 基线，Agent-as-a-Judge 性能持续提升，同时揭示了基于智能体验证（https://huggingface.co/papers?q=agent-based%20verification）仍面临重大开放挑战。数据与代码见 https://aj-bench.github.io/。

查看 arXiv 页面（https://arxiv.org/abs/2604.18240）
查看 PDF（https://arxiv.org/pdf/2604.18240）
项目主页（https://aj-bench.github.io/）
GitHub0（https://github.com/aj-bench/AJ-Bench）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.18240）

在智能体中获取该论文：

hf papers read 2604.18240

未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.18240，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18240，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.18240，即可在此页面显示链接。

包含该论文的合集 0

暂无合集包含此论文

将论文添加到合集（https://huggingface.co/new-collection），即可在此页面显示链接。

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

论文页面 - AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 基准测试

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

ProgramBench（5分钟阅读）

部分证据基准：对智能体系统中授权受限证据的评估

MLE-bench：评估机器学习代理在机器学习工程中的表现

SWE-WebDevBench：评估编码智能体应用平台作为虚拟软件代理商的能力

我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

提交意见反馈