AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
摘要
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
查看缓存全文
缓存时间: 2026/04/22 10:35
论文页面 - AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 基准测试
来源:https://huggingface.co/papers/2604.18240
作者:
,
,
,
,
,
,
,
,
,
摘要
Agent-as-a-Judge 基准测试在多个领域评估自动验证能力,提供全面的任务评估。
随着强化学习(https://huggingface.co/papers?q=reinforcement%20learning)不断扩展基于大语言模型智能体的训练规模,在复杂环境中可靠验证智能体行为变得越来越困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge(https://huggingface.co/papers?q=LLM-as-a-Judge)模型,难以泛化到狭窄领域之外。Agent-as-a-Judge(https://huggingface.co/papers?q=Agent-as-a-Judge)通过与环境和工具主动交互获取可验证证据,克服了这一局限,但其能力仍未被充分探索。我们提出基准 AJ-Bench(https://huggingface.co/papers?q=AJ-Bench),系统评估 Agent-as-a-Judge 在搜索、数据系统、图形用户界面三大领域的 155 项任务与 516 条标注轨迹。该基准全面评估裁判智能体在信息获取(https://huggingface.co/papers?q=information%20acquisition)、状态验证(https://huggingface.co/papers?q=state%20verification)与过程验证(https://huggingface.co/papers?q=process%20verification)方面的能力。实验表明,相比 LLM-as-a-Judge 基线,Agent-as-a-Judge 性能持续提升,同时揭示了基于智能体验证(https://huggingface.co/papers?q=agent-based%20verification)仍面临重大开放挑战。数据与代码见 https://aj-bench.github.io/。
查看 arXiv 页面(https://arxiv.org/abs/2604.18240)
查看 PDF(https://arxiv.org/pdf/2604.18240)
项目主页(https://aj-bench.github.io/)
GitHub0(https://github.com/aj-bench/AJ-Bench)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18240)
在智能体中获取该论文:
hf papers read 2604.18240
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18240,即可在此页面显示链接。
包含该论文的合集 0
暂无合集包含此论文
将论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示链接。
相似文章
在线Agent-as-a-Judge:交互式智能体的情境生成评估
提出在线Agent-as-a-Judge评估框架,该框架利用世界内评估智能体主动生成情境来测试交互式社交智能体,在覆盖率和可靠性上优于被动方法。
JobBench:让智能体工作与人类意愿对齐
JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
基准测试:万事万物,无处不在,一气呵成
介绍 Benchmark Agent,一个完全自主的系统,用于创建多样化的基准测试,只需最少的人工干预,支持跨领域的持续模型评估。
EnterpriseClawBench:基于真实工作会话的智能体基准测试
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。