JobBench:让智能体工作与人类意愿对齐
摘要
JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。
arXiv:2605.26329v1 Announce Type: new
摘要:当前面向职业 AI 智能体的基准主要按经济价值界定范围,讲述的是一个替代的故事。我们提出 JobBench,它通过专家确定为高优先级可委托的工作流程来评估 AI 智能体,基于人类的需求赋能他们,而非用 GDP 价值取代他们。JobBench 涵盖 35 个职业中的 130 个智能体任务。每个任务都被包装成一个包含异构参考文件的工作空间,要求智能体在真实专业工作中杂乱的信息流中进行推理。输出结果通过一个以事实为锚点的评分链进行评定,每个任务平均包含 35.6 个二元标准。我们评估了 36 个模型;其中最强的 Claude Opus~4.7 在 Claude Code 环境下仅达到 45.9%。我们希望 JobBench 能将社区关注的劳动力市场效应从替代转向增强:构建能够完成人类真正希望委托的任务的智能体,而不仅仅是那些经济价值最高的任务。
查看缓存全文
缓存时间: 2026/05/27 09:04
# JobBench:将代理工作与人类意愿对齐 来源:https://arxiv.org/html/2605.26329 Yuetai Li¹, Yichen Feng¹, Zhangchen Xu¹,¹⁰, Zixian Ma¹, Kaiyuan Zheng¹, Fengqing Jiang¹, Xinghua Sun¹, Rulin Shao¹, Zichen Chen²,³,¹⁰, Yue Huang⁶, Xinyang Han⁷, Brian Lee¹³, Kayla Xu⁵, Shenglai Zeng⁸, Hang Hua⁹, Xiangliang Zhang⁶, Basel Alomair¹,¹¹, Ranjay Krishna¹, Luke Zettlemoyer¹, Pang Wei Koh¹, Bhaskar Ramasubramanian¹², Luyao Niu¹, Xiang Yue⁴, Radha Poovendran¹ ¹华盛顿大学 ²加州大学圣巴巴拉分校 ³斯坦福大学 ⁴卡内基梅隆大学 ⁵西北大学 ⁶圣母大学 ⁷加州大学伯克利分校 ⁸密歇根州立大学 ⁹MIT-IBM Watson AI Lab ¹⁰Bake AI ¹¹阿卜杜勒阿齐兹国王科技城 ¹²西华盛顿大学 ¹³芝加哥大学 主页:https://job-bench.github.io/ Hugging Face:https://huggingface.co/datasets/JobBench/job-bench GitHub:https://github.com/Job-Bench/job-bench-eval ## 1 引言 关于AI在职场中的讨论几乎完全以经济术语来框架化:代理可以吸收多少工作小时?GDP中有多少暴露于自动化?职场基准测试在设计上也继承了这一框架。GDPVal[31 (https://arxiv.org/html/2605.26329#bib.bib26)]选择代表经济价值的任务,并根据专家参考交付物来评分代理能否交付专业知识工作[31 (https://arxiv.org/html/2605.26329#bib.bib26)]。远程劳动指数根据承包商薪酬来衡量端到端的远程工作项目[18 (https://arxiv.org/html/2605.26329#bib.bib29)]。$OneMillionBench 将其400个专家任务按高级专家工时乘以市场工资定价,并根据代理能够可靠交付的那一部分专家定价工作给予评分[41 (https://arxiv.org/html/2605.26329#bib.bib28)]。所有这些基准都以不同的形式提出同一个问题:代理现在可以独立产生哪些具有经济价值的交付物? 然而,这种框架忽略了一个互补的标准。如果代理要与拥有这些工作的人类共享专业职场,那么评估应该权衡工人自己更愿意将哪些职责委托出去。我们将此视为以人为中心的基准设计约束:专业人士不是要被取代的劳动力,而是领域专家,他们对自己工作的偏好决定了哪些职责值得自动化并能提升生产力。 JobBench 是基于这一原则构建的基准。其涵盖35个职业的130个任务,每一个都基于该领域专家声称最希望由能干代理处理的工作。我们在Workbank[34 (https://arxiv.org/html/2605.26329#bib.bib30)]基础上设计任务,这是一项以工人为中心的调查,超过1500名工人对他们自己职业的每个O*NET¹¹工作职责进行评分,判断是否更愿意让AI代理接管该工作。我们选择了自动化意愿平均得分较高的35个职业,并将这些工作职责开发成完整的基准评估。图1 (https://arxiv.org/html/2605.26329#S0.F1)展示了一个记者任务的示例,该任务基于记者最希望委托给AI的职责:“检查不同的来源参考资料以获取相关事实。”虚线从每个事实的源文件出发,经过它带来的推理挑战,最终到达支持该事实的交付物。 JobBench 使用链式评分规则集对每个任务进行评分,平均每个任务包含35.6个二元标准,总计4631个标准。每个标准都锚定在一个确定性数字、一个具体的推理步骤或一个记录在案的专业判断上,只有当链中的每个标准都通过时,该规则才会获得其权重。如果通过错误的推理得到了正确的事实,也不会获得部分学分。 我们总结贡献如下: - **与人类意愿对齐。** 我们将每个JobBench任务都建立在领域专家的委托意愿之上,因此排行榜上的进展直接映射到代理如何同时提升工人满意度和生产力。 - **专业推理。** 每个任务提供一个由异构参考文件组成的工作空间,这些文件可能包含冲突和搜索线索。只有检索并协调正确来源的代理才能获得学分。 - **事实锚定的链式评分规则。** 4631个二元标准被组织成规则链,只有当链中的每个标准都通过时才授予学分。跨不同代理的采样运行汇总后,95.4%的规则至少被通过一次,证明每个标准在实践中是可验证的。 - **对前沿模型具有挑战性。** 在36种代理配置中,最强的设置——Claude Opus 4.7搭配Claude Code——达到了45.9%;在Claude和GPT系列之外,没有代理超过19%。 ## 2 JobBench基准 ### 2.1 JobBench的设计原则 **与人类意愿对齐。** JobBench将专家自己的意愿和判断作为选择信号,借鉴了Workbank[34 (https://arxiv.org/html/2605.26329#bib.bib30)],其中超过1500名工人对他们职业中的每个工作职责的委托意愿进行评分。通过瞄准专家希望委托并花费最多准备时间的职责,JobBench衡量那些自动化后能同时提升工人满意度和生产力的能力。 **从知识交付到专业推理。** GDPVal[31 (https://arxiv.org/html/2605.26329#bib.bib26)]评估的是相对干净任务包中的精良交付物。而JobBench则提供异构的、有时相互矛盾的工作空间,代理必须在产生最终成果之前定位、检索并协调来源证据。这将评估目标从呈现看似合理的专业输出,转向进行基于来源的推理,从而使这种输出变得有据可依。 **增强,而非取代。** 围绕经济价值和端到端交付物界定任务,明确讲述了一个取代的故事:代理作为工作中人类的替代品。而JobBench则对那些自动化后能增强专家而非替代专家的工作进行评分。表1 (https://arxiv.org/html/2605.26329#S2.T1)比较了JobBench与GDPVal的设计原则。对于记者而言,WorkBank调查[34 (https://arxiv.org/html/2605.26329#bib.bib30)]中专家最希望卸载的职责是“跨来源的事实核查”,但GDPVal任务只关注对预先组装好的源数据包进行单篇文章编辑,而JobBench则将跨年度的水质CSV文件、EPA指南和监测数据的协调工作纳入范围。 **表1:** JobBench与GDPVal[31 (https://arxiv.org/html/2605.26329#bib.bib26)]在“记者”和“技术销售”职业上的案例比较。 ### 2.2 JobBench概览 **数据分布。** 表2 (https://arxiv.org/html/2605.26329#S2.T2)报告了JobBench的完整统计数据。它包含65个任务的主集和65个任务的简易集,涵盖了跨越10个SOC²²组别的35个O*NET职业。任务由17种文件格式的502个参考文件支持,平均每个任务有3.9个参考文件。大多数来源自真实世界的公共记录,包括联邦机构发布(如CDC、EPA、EIA、Census、USDA、FRED、EEOC)、州和市政门户网站(城市法令、法院文件、公共卫生和采购记录)、学术和研究资料库,以及开放数据平台(城市开放数据中心、Kaggle、GitHub数据转储)。主集中51.7%的参考文件来自真实世界公共记录,其余为合成数据。简易集中的所有参考文件均来自真实世界。  **图2:** JobBench任务分布。上方:覆盖的10个SOC组别,每个饼图显示该类别在130个总任务中的占比。下方:按类别分组的35个职业,条形长度表示每个职业的任务数。 **任务规范。** 每个JobBench任务被打包成一个代理工作包,包含: - **查询:** 一个专业场景,固定了上下文以及代理必须产生的交付物。 - **参考文件:** 一个由异构源文档组成的工作空间,代理必须在运行所需分析之前通读并协调这些文档。 - **二元标准:** 基于可验证的数字、事实和记录在案的专业判断的二元检查。 - **规则:** 一条以标准为节点的推理链;该链组织了专家在捍卫底层主张时会遵循的判断顺序。只有当链中每个节点都通过时,规则才会获得加权分数,因此一个流畅的答案如果悄悄省略了方法论检查或阈值标记,就会导致整个链失败。 更多任务示例见附录E (https://arxiv.org/html/2605.26329#A5)。 **表2:** JobBench的关键统计数据。 ### 2.3 基准构建 **职业选择。** 我们瞄准那些同时具有高自动化意愿和显著经济暴露的职业。我们从Workbank开始,它提供了每个O*Net工作职责的众包自动化意愿分数(1-5分制)[34 (https://arxiv.org/html/2605.26329#bib.bib30)],并将其条目与OEWS 2024年总工资合并以量化经济暴露[36 (https://arxiv.org/html/2605.26329#bib.bib63)]。最终选定的35个职业由平均意愿分数高于3且按经济暴露排序的职业组成。然后,一个可行性过滤器要求每个保留的工作职责必须是“可数字化的”、“可评估的”和“可支持的”,且自动化意愿高于3,以形成任务设计的源池。最终的职业分布如图2 (https://arxiv.org/html/2605.26329#S2.F2)所示。 **图3:** JobBench专家入职流程:(1) 来自Prolific的领域专家库,(2) 将专家接入JobBench标注平台,(3) 改进和标注。 **专家库。** 领域专家通过Prolific[30 (https://arxiv.org/html/2605.26329#bib.bib64)](一个研究参与者招募平台)和Upwork[37 (https://arxiv.org/html/2605.26329#bib.bib65)](一个自由职业市场平台)招募。Prolific库按参与者ID索引,每个职业平均覆盖26.5名不同专家。在Upwork上,我们按职业关键词搜索,并保留工作成功率超过90%的候选人。选定的专家完成结构化的入职流程,然后被分配到我方标注平台上的工作,该平台集成了标注过程中使用的AI工具,并记录使用情况以供审查和追踪。 **任务策展。** 对于每个职业,标注人员基于Workbank中报告的高意愿工作职责起草任务草图,指定场景、推理挑战、交付物以及应强制执行的标准。草稿在AI辅助下扩展为包含参考文件、自包含任务查询和规则链的工作包。简易集任务不需要网络搜索证据,并且推理挑战比主集少。规则链中的每个标准都必须满足: - **自包含:** 每个规则可以独立判断,无需继承外部上下文。 - **二元:** 它只能判为通过或失败,不允许部分学分。 - **客观:** 它与可验证的工件或可重复的计算相关联。 - **无歧义:** 被检查的引用对象被准确命名,以至于两个评分者不会在评估内容上产生合理分歧。我们观察到,歧义是导致不同LLM评委在评估同一答案时产生分歧的关键因素。 **改进和筛选。** 一个候选任务在进入基准之前需通过三个质量门: - **自动审计:** 一个审计代理检查任务指令与其参考文件之间的一致性、任务本身的专业合理性,以及链中每个规则的正确性。任何未通过这些检查的任务或规则都会被丢弃。 - **标注人员审查:** 标注人员完善任务指令并删除低质量规则,只有获得正面反馈的任务才能进入下一轮。 - **求解试验:** 幸存的任务在多次采样下由不同代理运行,然后用规则进行评判。我们通过所有运行中通过的规则的并集来给每个任务打分,仅保留那些并集覆盖自身规则集超过90%的任务。 最终71%的任务通过了这三个阶段的质量检查流水线。最终接受基准的总体并集通过率为95.4%,这意味着超过95%的标准至少被一个代理在一次采样中通过,证明规则集在实践中是可实现的。 ## 3 实验 ### 3.1 实验设置 **表3:** JobBench-主集在不同代理框架下的排行榜。 #### 模型和代理框架。 我们评估了主要专有和开源系列中一组具有代表性的最新代理模型。评估的模型包括Anthropic Claude[4 (https://arxiv.org/html/2605.26329#bib.bib2),5 (https://arxiv.org/html/2605.26329#bib.bib3),8 (https://arxiv.org/html/2605.26329#bib.bib6),7 (https://arxiv.org/html/2605.26329#bib.bib7),6 (https://arxiv.org/html/2605.26329#bib.bib4),9 (https://arxiv.org/html/2605.26329#bib.bib8),3 (https://arxiv.org/html/2605.26329#bib.bib5)](Opus-4, Opus-4.5, Opus-4.6, Opus-4.7, Sonnet-4, Sonnet-4.5, Sonnet-4.6, 和 Haiku-4.5);OpenAI GPT-5系列[23 (https://arxiv.org/html/2605.26329#bib.bib9),24 (https://arxiv.org/html/2605.26329#bib.bib10),25 (https://arxiv.org/html/2605.26329#bib.bib11),27 (https://arxiv.org/html/2605.26329#bib.bib12),28 (https://arxiv.org/html/2605.26329#bib.bib13)](GPT-5, 5.1, 5.2, 5.4, 5.5)及其Codex变体[26 (https://arxiv.org/html/2605.26329#bib.bib14)](GPT-5.1-Codex, 5.2-Codex, 5.3-Codex);Google Gemini 3[14 (https://arxiv.org/html/2605.26329#bib.bib15)](Pro和Flash);Qwen-3.5-Plus[32 (https://arxiv.org/html/2605.26329#bib.bib20)];MiniMax-M2.5[20 (https://arxiv.org/html/2605.26329#bib.bib21)];Kimi-K2.5[21 (https://arxiv.org/html/2605.26329#bib.bib22)];以及xAI Grok-4.2-Fast[39 (https://arxiv.org/html/2605.26329#bib.bib23)]。 我们使用覆盖主要部署面的四个代理框架:Claude Code (v2.1.2)[2 (https://arxiv.org/html/2605.26329#bib.bib16)]、Codex CLI (v0.125.0)[22 (https://arxiv.org/html/2605.26329#bib.bib17)]、OpenCode (v1.14.18)[35 (https://arxiv.org/html/2605.26329#bib.bib18)]和OpenClaw (v2026.3.8)[29 (https://arxiv.org/html/2605.26329#bib.bib19)]。每个框架将基础模型与其自己的工具使用、规划和文件编辑策略包装在一起,包括shell执行、多文件编辑、子代理委派、上下文压缩、网页浏览和抓取。我们始终选择每个模型和框架默认支持的最大推理努力级别。代理评估提示见附录F.1 (https://arxiv.org/html/2605.26329#A6.SS1)。 #### 任务执行。 每个任务呈现为一个独立的工作空间,包含本地参考文档、任务指令和专用输出目录。代理读取指令,仅在此工作空间内操作,并将其最终交付物输出到输出目录。任务以非交互式无头代理模式运行。代理运行器为每个任务设置60分钟的挂钟超时,并仅允许代理访问任务的临时工作空间。我们使用每个框架的默认采样配置。 #### 评估
相似文章
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。
CHI-Bench: AI智能体能否自动化端到端、长周期、政策密集的医疗工作流程?
本文介绍了CHI-Bench,这是一个用于评估AI智能体在需要基于政策的决策、多角色组合和多边交互的复杂医疗工作流程端到端自动化方面的基准。实验结果表明,最佳智能体仅实现了28%的任务解决率,突显了当前智能体在政策密集的企业领域中的能力差距。