知识工作的设计与报告基准

arXiv cs.AI 论文

摘要

本文提出一个三步框架,用于设计和报告知识工作AI的基准,强调基准任务与实际工作活动之间的一致性。它从O*NET数据库中推导出18种工作活动,并分析了三个现有基准(GDPval、OfficeQA Pro、APEX-SWE),以展示基准分数与实际工作能力之间的差距。

arXiv:2605.23262v1 公告类型:新 摘要:LLM智能体的发展催生了越来越多关于知识工作AI的研究,包括编码、研究和医疗保健。然而,当前的知识工作评估和基准设计在很大程度上仍然遵循传统NLP任务的逻辑。因此,更高的基准性能并不能可靠地表明系统能够在实际部署环境中执行知识工作。本文提出了一种三步方法,用于明确基准测试任务如何代表其分数所附带的工作主张:定义被评估的工作活动、指定测试环境、对适当的工作产品进行评分。我们回顾了工作研究,表明知识工作是通过角色与职责、本地材料与工具以及必须在后续工作流程中保持可用的工件来组织的。然后,我们将这些关注点转化为基准设计和报告指南,涵盖任务如何映射到工作活动、测试环境应如何指定材料、工具、角色和约束,以及评分应如何关注系统留下的工作产品。为了命名被评估的工作活动并将其与常见的基准任务区分开来,我们从O*NET职业任务数据库中推导出18种工作活动。我们通过三个基准案例分析来演示该方法:GDPval(一个非代码的职业交付基准)、OfficeQA Pro(一个基于文档的分析基准,通过最终答案评分)和APEX-SWE(一个软件工程基准,具有可执行的评分产品)。这些案例展示了基准设计选择如何影响分数所能支持的最强工作主张,以及基准测试任务、测试环境、评分产品与更广泛的工作主张之间出现的差距。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:57

# 知识工作的设计与报告基准  
来源:https://arxiv.org/html/2605.23262  

Yining Hua¹, Hongbin Na², Cyrus Ayubcha¹, Levi Lian³,⁴  
¹哈佛大学  
²悉尼科技大学  
³斯坦福大学  
⁴Raycaster AI  
yininghua@g\.harvard\.edu  
hongbin\.na@student\.uts\.edu\.au  
cyrusayubcha@hms\.harvard\.edu  
levilian@raycaster\.ai  

###### 摘要  
随着LLM智能体的发展,针对知识工作AI(包括编程、研究和医疗)的研究日益增多。然而,当前知识工作的评估与基准设计仍很大程度上沿用传统NLP任务的评估逻辑。因此,基准性能的提升并不能可靠地表明系统在实际部署中能更好地完成知识工作。为帮助设计更好的基准,本文提出一种三步方法,用于明确基准任务如何代表其分数所对应的工作声明:定义所评估的工作活动、明确测试设置、以及为适当的工作产物评分。论文首先回顾工作研究,这些研究通过展示知识工作是围绕角色与职责、本地材料与工具、以及必须能在下游工作流中使用的产物来组织的,从而激励这些报告决策。然后,我们将这些关注点转化为基准设计与报告指南,涵盖基准任务应如何映射到工作活动、测试设置应如何规定材料、工具、角色和约束,以及评分应如何聚焦于系统留下的工作产物。为便于命名所评估的工作活动并区别于常见测试的基准任务,本文从O\*NET职业任务数据库中提炼出18个工作活动清单。我们通过三个基准案例研究展示该方法:GDPval(非代码职业可交付成果基准)、OfficeQA Pro(基于最终答案评分的有根文档分析基准)和APEX-SWE(具有可执行评分产物的软件工程基准)。这些案例分析展示了基准设计选择如何影响分数所能支持的最强工作声明,以及基准任务、测试设置、评分产物与更广泛工作声明之间出现的差距。  

## 1 引言  
知识工作是一类广泛的劳动,其中知识既是工作的原材料,也是工作输出(Drucker, 1999 (https://arxiv.org/html/2605.23262#bib.bib24); Davenport, 2005 (https://arxiv.org/html/2605.23262#bib.bib20))。它覆盖了劳动力市场的大量份额(Porat, 1977 (https://arxiv.org/html/2605.23262#bib.bib110)),包括许多其任务中心位于信息处理、判断、沟通、文档编制和协调的职业,如O\*NET任务陈述所反映(National Center for O\*NET Development, 2026 (https://arxiv.org/html/2605.23262#bib.bib107))。由于许多基于计算机的工作属于这一类别,LLM系统越来越多地针对面向工作的任务进行研究(Eloundou et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib25); Brynjolfsson et al., 2025 (https://arxiv.org/html/2605.23262#bib.bib13))。近期研究评估了那些通过中间步骤进行推理(Yao et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib125))、使用外部工具(Schick et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib111))、跨多个智能体协调(Wu et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib123))、在网页环境中操作(Zhou et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib126))、控制桌面系统(Xie et al., 2024 (https://arxiv.org/html/2605.23262#bib.bib124))以及完成企业(Drouin et al., 2024 (https://arxiv.org/html/2605.23262#bib.bib22))或办公室任务(Wang et al., 2024b (https://arxiv.org/html/2605.23262#bib.bib118))的智能体。  

知识工作不同于标准自然语言处理(NLP)任务,例如信息检索(Thakur et al., 2021 (https://arxiv.org/html/2605.23262#bib.bib131))、摘要生成(Nallapati et al., 2016 (https://arxiv.org/html/2605.23262#bib.bib68); Narayan et al., 2018 (https://arxiv.org/html/2605.23262#bib.bib69))和函数级代码生成(Chen et al., 2021 (https://arxiv.org/html/2605.23262#bib.bib18)),这些任务通常评估有界的输入-输出行为,而非在情境化工作流中生成工作产物。针对这类更广泛工作的评估设计与报告指南仍不完善;许多LLM和智能体评估仍围绕场景、组件任务和指标组织,而非围绕工作产物声明(Wang et al., 2024a (https://arxiv.org/html/2605.23262#bib.bib119); Liang et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib63))。然而,在知识工作智能体的背景下,这些分数常被不准确地用于表示系统在更广泛工作类别(如研究综合、文档修订、临床分诊或行政协调)中的能力。这种推断是脆弱的,因为知识工作的输出无法仅通过其可见内容来理解。一个答案、回复或补丁可能因其所产生的角色、材料、设置和接收工作流而具有不同含义。因此,仅报告系统最终输出的基准无法显示该输出是否能够支持下游协调和延续(Carlile, 2002 (https://arxiv.org/html/2605.23262#bib.bib16), 2004 (https://arxiv.org/html/2605.23262#bib.bib17); Malone and Crowston, 1994 (https://arxiv.org/html/2605.23262#bib.bib101)),例如被检查、修订、归档、执行或在后续工作流步骤中使用。例如,一个补丁可能通过基准测试却未能满足开发者期望(Wang et al., 2025 (https://arxiv.org/html/2605.23262#bib.bib132)),而AI辅助可以改善某些知识任务,但在现场设置中却可能使其他任务的性能变差(Dell’Acqua et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib21))。  

为防止基准分数所测量的内容与其用于声称的知识工作能力之间的不匹配,本文贡献了一种设计与报告方法,通过三个步骤将基准分数与更广泛的工作声明联系起来:定义所评估的工作活动、明确测试设置、以及为适当的工作产物评分。对于每一步,基准报告应说明任务代表什么、为评估所做的简化设置、以及更广泛工作中的哪些部分仍处于分数之外。第2节 (https://arxiv.org/html/2605.23262#S2)解释为何工作活动、测试设置和下游使用对基准解释至关重要。第3节 (https://arxiv.org/html/2605.23262#S3)将这一三步设计与报告方法发展为一种报告结构:(1) 识别工作活动,(2) 明确测试设置,(3) 为适当的工作产物评分。它还推导出一个基于O\*NET的清册用于识别工作活动(National Center for O\*NET Development, 2026 (https://arxiv.org/html/2605.23262#bib.bib107))。第4节 (https://arxiv.org/html/2605.23262#S4)通过三个基准案例研究展示该方法:GDPval、OfficeQA Pro 和 APEX-SWE。第5节 (https://arxiv.org/html/2605.23262#S5)讨论局限性、替代解释和未来方向。表1 (https://arxiv.org/html/2605.23262#S1.T1)给出了本文使用的定义。  

表 1:本文使用的定义。  

## 2 知识工作需要什么  
知识工作通常被定义为知识是工作主要输入和输出的劳动(Drucker, 1999 (https://arxiv.org/html/2605.23262#bib.bib24); Davenport, 2005 (https://arxiv.org/html/2605.23262#bib.bib20))。对于基准设计,主要问题在于分数常常被附加到比实际测试的任务、设置或评分对象更广泛的工作能力声明上。因此,本文聚焦于当NLP风格的任务分数用于支持有关知识工作能力的声明时,通常未明确表述的三个表征方面:任务代表什么工作、该工作是在什么条件下测试的、以及作为成功证据被评估的对象。这一关注点与效度理论中对分数解释和使用的更广泛关注相一致(Messick, 1995 (https://arxiv.org/html/2605.23262#bib.bib2); Kane, 2013 (https://arxiv.org/html/2605.23262#bib.bib94)),但本文的贡献是基准设计和报告说明,而非完整的心理测量说明。  

关于专业管辖权的研究表明,专家工作是通过角色、权威、问题领域和责任边界来组织的(Abbott, 1988 (https://arxiv.org/html/2605.23262#bib.bib5))。Freidson同样将专业主义描述为一种围绕职业控制和责任组织的专门工作形式(Freidson, 2001 (https://arxiv.org/html/2605.23262#bib.bib29))。这些论述表明,可见输出本身并不能识别所评估的工作。相似的输出可能承担不同的责任,取决于它们的功能是建议、分析、文档、评审还是决策支持。  

关于情境行动的研究表明,表现取决于行动发生的条件。情境行动理论认为,行动是通过本地材料、工具、指令和社会环境来组织的,而非仅靠抽象的任务描述(Suchman, 1987 (https://arxiv.org/html/2605.23262#bib.bib112))。分布式认知论述同样将认知视为分布在人、产物和环境中的(Hutchins, 1995 (https://arxiv.org/html/2605.23262#bib.bib3))。这些论述表明,相同的工作活动可能因基准提供的材料、可用工具、分配的角色和施加的工作流约束而支持不同的声明。  

关于边界对象、知识转移和协调的研究表明,知识工作输出通常需要在不同行动者、系统和依赖的活动之间流动。边界对象工作解释了产物如何支持跨社区协调,同时在不同本地环境中保持可用(Star and Griesemer, 1989 (https://arxiv.org/html/2605.23262#bib.bib4))。Carlile关于知识边界的工作表明,跨越组织边界的知识通常需要表征、翻译和转化(Carlile, 2002 (https://arxiv.org/html/2605.23262#bib.bib16), 2004 (https://arxiv.org/html/2605.23262#bib.bib17))。协调理论将工作视为对活动间依赖关系的管理(Malone and Crowston, 1994 (https://arxiv.org/html/2605.23262#bib.bib101))。这些论述将注意力引向留给审查、归档、执行或延续的对象。  

工作活动、测试设置和工作产物并未提供知识工作的详尽理论或基准质量的完整说明。其他重要问题仍然存在,包括任务抽样、评分规则设计、评分者可靠性、指标聚合、鲁棒性、公平性和使用后果。我们较窄的断言是,工作活动、测试设置和工作产物提供了一个最低报告结构,用于将知识工作基准分数与它们实际代表和评分的工作保持关联。  

## 3 基准设计与报告的三步方法  

### 3.1 定义基准旨在代表的工作活动  
第一个设计问题是基准旨在代表什么工作活动。本文使用“工作活动”作为报告单位,因为常见的替代单位要么太窄要么太宽。像检索、摘要、分类、工具使用或答案生成这样的“组件任务”通常太小,不足以支持知识工作声明。像医学、法律、金融或软件工程这样的“职业”或“领域”通常太宽,因为它们包含许多具有不同材料、角色、产物和下游用途的活动。工作活动是这里所需的中间层次:它命名了所声称的工作,同时仍允许基准报告解释任务代理、测试设置和评分工作产物如何代表它。  

当前的知识工作基准通常通过三种类型的标签定义其范围。一种是领域或职业标签,例如“医疗保健”(Arora et al., 2025 (https://arxiv.org/html/2605.23262#bib.bib8))、“法律”(Guha et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib81))、“企业文档”(Opsahl-Ong et al., 2026 (https://arxiv.org/html/2605.23262#bib.bib108))、“办公室工作”(Wang et al., 2024b (https://arxiv.org/html/2605.23262#bib.bib118))或“软件工程”(Kottamasu et al., 2026 (https://arxiv.org/html/2605.23262#bib.bib96))。这些标签有助于将基准定位在某个应用领域,但它们通常过于宽泛,无法定义所评估的构念。一个领域或职业包含许多具有不同角色、材料、决策边界和适当标准的工作活动。这是职业分析中一个熟悉的问题:职业类别将异质性任务分组(Handel, 2016 (https://arxiv.org/html/2605.23262#bib.bib84)),而任务陈述则更直接地描述了工人实际做什么(National Center for O\*NET Development, 2026 (https://arxiv.org/html/2605.23262#bib.bib107))。对于基准设计,同样的问题出现在当“医疗保健”、“法律”或“软件工程”的分数被解读为整个领域的证据时。这样的分数可能反映了对一小部分活动的强性能,而其他活动未被采样、测试不足或完全在基准之外。  

第二种标签是组件任务标签,例如“问答”(Rajpurkar et al., 2016 (https://arxiv.org/html/2605.23262#bib.bib70))、“摘要”(Nallapati et al., 2016 (https://arxiv.org/html/2605.23262#bib.bib68); Narayan et al., 2018 (https://arxiv.org/html/2605.23262#bib.bib69))、“检索”(Thakur et al., 2021 (https://arxiv.org/html/2605.23262#bib.bib131))或“工具使用”(Schick et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib111))。这些标签造成了相反的问题:覆盖不足。它们识别了有用的组件能力,但本身并未定义组件旨在支持的更大工作活动。检索、嵌入、摘要或分类分数是知识工作智能体的有用证据,但它们本身并不能表明系统可以执行“调查”、“分析”、“检查”或“记录保存”。检索分数只有在基准还测试了检索材料如何被选择、比较、解释并整合到评分工作产物中时,才能成为工作活动的证据。  

第三种标签是智能体任务标签,例如浏览器任务(Zhou et al., 2023 (https://arxiv.org/html/2605.23262#bib.bib126))、桌面任务(Xie et al., 2024 (https://arxiv.org/html/2605.23262#bib.bib124))、办公室任务(Wang et al., 2024b (https://arxiv.org/html/2605.23262#bib.bib118))、用户交互任务(Yao et al., 2025 (https://arxiv.org/html/2605.23262#bib.bib137))或软件工程任务(Kottamasu et al., 2026 (https://arxiv.org/html/2605.23262#bib.bib96))。这些标签造成了不同的问题:覆盖不透明。由于智能体任务可能在单个回合中包含搜索、工具使用、文件编辑、计算和提交,单个任务可以映射到多个工作活动。这使得智能体评估更接近实际工作,但也使得分数更难解释。聚合的任务分数可能隐藏了哪些活动是必需的,哪些仅与任务上下文有关。

相似文章

JobBench:让智能体工作与人类意愿对齐

arXiv cs.AI

JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

KWBench:衡量知识工作中无提示的问题识别能力

Hugging Face Daily Papers

# 论文页面 - KWBench:衡量知识工作中无提示的问题识别能力 来源:[https://huggingface.co/papers/2604.15760](https://huggingface.co/papers/2604.15760) ## 摘要 KWBench 提供了一个基准,用于评估大模型在无提示情况下识别专业场景的能力,重点考察其能否从原始输入中识别出潜在的博弈论结构。我们发布了 KWBench(Knowledge Work Bench)的首个版本,一个针对无提示问题识别的基准。