agent-as-judge

标签

Cards List
#agent-as-judge

AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准

Hugging Face Daily Papers · 2026-04-20 缓存

AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈