agent-as-judge

#agent-as-judge

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

AJ-Bench 提出一套评测基准，用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力，覆盖搜索、数据系统与 GUI 领域的 155 项任务。

0 人收藏 0 人点赞