通过基准构建教授AI:QuestBench作为负责任知识工作的课程实践

arXiv cs.AI 论文

摘要

本文介绍了QuestBench,这是一个由学生构建的基准,用于评估人文和社会科学领域的深度研究系统。结果显示,即使是像GPT-5.5这样的先进系统也只能通过57.58%的问题,突显了可信度方面的失败。

arXiv:2605.21413v2 公告类型:新 摘要:随着AI成为日常学习的一部分,许多课程主要教导学生将其用作生产力工具:如何更有效地提示、搜索、总结、写作、编码和使用工具。我们认为,AI教育还需要一种情境,让学生学会测试AI并理解自己在判断机器生成知识中的角色。为此,我们引入了一种基于课程的实践,通过基准构建来教授AI,以深度研究系统作为AI时代知识工作的具体示例。学生将学科知识转化为可验证的专家级问题,相互审查设计中的歧义和捷径,并在由此产生的任务上评估AI系统。这一活动让学生直接接触强大的工具,同时要求他们明确一个可信答案需要什么。所构建的基准QuestBench包含14个人文和社会科学领域的256个问题。对QuestBench的评估表明,学生设计的任务揭示了当前深度研究系统中隐藏的失败:在评估的十三个系统中,平均问题级通过率仅为16.85%,性能最好的系统GPT-5.5达到了57.58%的通过率。这些失败在教育上是有用的,因为它们展示了流畅且引用源头的答案仍然可能错过正确的查询、来源、术语或证据标准。五位学生贡献者的反思表明,基准构建可以帮助学生将专业知识不仅视为AI可能检索的内容,而且作为判断AI输出的基础。我们将QuestBench呈现为一个基准制品和一个可重复使用的课堂设置,以应对一个更大的教育问题:随着AI进入学习和专业工作,学生如何保持负责任的知识行动者。数据集可在https://huggingface.co/datasets/PKUAIWeb/QuestBench/tree/main获取。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:50

# QuestBench:作为可问责知识工作的课程实践  
来源:https://arxiv.org/html/2605.21413  

## 通过基准构建教授人工智能:QuestBench——作为可问责知识工作的课程实践  
Haiyang Shen¹,∗,†,Jiuzheng Wang¹,∗,†,Taian Guo¹,Mugeng Liu¹,Wenchun Jing¹,Chongyang Pan¹,Siqi Zhong¹,Zhiyang Chen¹,Weichen Bi¹,Yudong Han¹,Xiaoying Bai²,Yun Ma¹,†  
¹北京大学  
²大数据分析与应用技术国家工程实验室  
[email protected][email protected][email protected]  
∗同等贡献,†通讯作者  

###### 摘要  
随着人工智能成为日常学习的一部分,许多课程主要将其教授为一种生产力工具:如何更高效地进行提示、搜索、总结、写作、编码和使用工具。我们认为,AI教育还需要一个场景,让学生学会测试AI,并理解自己在判断机器生成知识中的角色。为此,我们引入了一项基于课程的实践,通过基准构建来教授AI,以深度研究系统作为AI时代知识工作的具体案例。学生将学科知识转化为可验证的专家级问题,相互审查设计中的歧义和捷径,并在生成的任务上评估AI系统。这项活动让学生直接接触强大工具,同时要求他们明确可信赖的答案需要什么条件。生成的基准QuestBench包含14个人文与社会科学领域的256个问题。在QuestBench上的评估表明,学生设计的任务揭示了当前深度研究系统中隐藏的失败:在13个评估系统中,平均问题级通过率仅为16.85%,表现最佳的系统GPT-5.5达到了57.58%的通过率。这些失败在教育上很有价值,因为它们展示了看似流畅、有来源支持的答案如何仍然可能错误地匹配查询、来源、术语或证据标准。五位学生贡献者的反思表明,基准构建可以帮助学生将专业知识不仅视为AI可能检索的内容,而且作为判断AI输出的基础。我们将QuestBench作为基准工件和可重复的课堂设置,以探讨一个更大的教育问题:当AI进入学习和专业工作时,学生如何保持负责任的知识行动者角色。数据集可在https://huggingface.co/datasets/PKUAIWeb/QuestBench/tree/main获取。  

## 1 引言  
AI正逐渐成为学生进行知识工作的一部分。当前系统可以搜索、阅读、写作、编码、调用工具,并帮助完成那些曾经需要许多独立人工步骤的任务。这种转变并没有将学生排除在工作之外,而是改变了他们必须能够完成的工作内容。  

许多AI教学从工具使用开始:如何提示系统、获得有用的输出、更高效地工作。这第一步是必要的,但并不充分。如果学生只学会接收AI输出,他们可能不会学习如何定义任务、检查过程、验证证据,或判断结果是否可信。因此,AI教育的一个核心挑战是教会学生如何在AI参与知识生产时保持可问责性。  

我们提出基准构建作为一种基于课程的教授这种责任的方式。构建基准并不要求学生站在AI工作之外作为被动评估者,而是要求他们构建可以判断AI工作的条件。学生必须决定什么值得提问、什么构成有效答案、哪些来源可以支持它、哪些捷径会使任务失去意义,以及评分标准必须保留哪些特定领域的区别。这些决策是专业环境中负责任的AI中介工作的一部分。基准构建使这些决策足够明确,可以在课堂中实践。  

本文以深度研究系统作为教学案例。它们并非论点的终点,而是AI中介知识工作的具体示例。这类系统搜索网页、浏览文档、综合证据,并返回通常看起来有充分依据的答案。它们足够有用,让学生认真对待,同时也足够不可靠,适宜教学。它们流畅且有来源支持的输出可能隐藏只有领域感知用户才能识别的失败,例如错误的查询、捷径、混淆的来源、过时的术语,或呈现为完整答案的部分证据。  

图1:QuestBench作为基于课程的基准构建用于教授可问责的AI中介知识工作的概念框架。学生首先将深度研究系统作为实用工具接触,然后通过基准构建设计专家级问题、测试捷径、验证答案、评估模型和分析失败。该课程将工具接触与问题设计、学科标准和判断AI生成工作的责任联系起来。  

这种方法赋予了学科知识在AI教育中的特定角色。狭隘的观点将这类知识视为AI可能检索或总结的内容。在QuestBench中,学生用它来定义AI生成工作可以被接受的标准。法律学生知道为什么法规措辞和版本化很重要;历史和国关学生知道为什么来源出处和文件身份很重要;语言文学学生知道为什么翻译、版本和措辞很重要。这些细节是操作性的,但也承载着信息变为可信知识的标准。  

教育目标是帮助学生在AI参与工作时保持负责任的知识行动者角色。AI系统可以搜索和综合,但它们不决定哪些问题值得关注、某个领域应该接受什么证据、或者答案何时足够可靠。随着AI能力的增强,教育必须同时教授使用和问责性。目标不是用判断取代产出。相反,学生需要学习如何将问题设计、证据选择、模型使用和答案接受视为一个责任链条。基准构建通过要求学生定义、测试和捍卫AI输出将被判断的标准,使这一链条变得具体。  

我们在QuestBench中实例化了这种方法,这是一个基于课程的基准构建项目,用于教授可问责地使用深度研究系统。来自北京大学人文和社会科学学科的学生设计、审查并验证了来自自己领域的高难度信息查找问题。最终基准包含256个经过筛选的问题,涵盖14个标准化领域,包括法律、历史、国际关系、文学、社会科学、艺术和外语。每个问题都可以公开回答,但对当前系统来说很困难,因为成功需要领域感知的查询制定、专门的来源导航、证据判断和精确的答案提取。结果既是一个基准,也是课程实践的记录:它评估深度研究系统,同时展示学生如何学习定义和检查AI中介的知识工作。  

在QuestBench上的评估表明,学生设计的任务揭示了当前深度研究系统的明显局限性。我们评估了Kimi K2.5[16 (https://arxiv.org/html/2605.21413#bib.bib9)]和DeepSeek-V3.2[7 (https://arxiv.org/html/2605.21413#bib.bib12)],以及Seed-2 Pro[4 (https://arxiv.org/html/2605.21413#bib.bib10)]和Seed-1.8 Pro[3 (https://arxiv.org/html/2605.21413#bib.bib11)],还有九个前沿深度搜索系统:GPT-5.5[24 (https://arxiv.org/html/2605.21413#bib.bib48)]、Claude Opus 4.7[2 (https://arxiv.org/html/2605.21413#bib.bib49)]、Gemini 3.1 Pro[10 (https://arxiv.org/html/2605.21413#bib.bib50)]、GLM 5.1[35 (https://arxiv.org/html/2605.21413#bib.bib51)]、DeepSeek-V4 Pro[6 (https://arxiv.org/html/2605.21413#bib.bib52)]、Kimi K2.6[23 (https://arxiv.org/html/2605.21413#bib.bib53)]、MiMo-V2.5 Pro[32 (https://arxiv.org/html/2605.21413#bib.bib54)]、Qwen 3.6 Plus[1 (https://arxiv.org/html/2605.21413#bib.bib55)]和MiniMax M2.7[22 (https://arxiv.org/html/2605.21413#bib.bib56)]。平均得分范围从14.58到67.12(满分100),通过率范围从7.81%到57.58%。失败分析表明,主要瓶颈不仅仅是信息的可获取性,而是查询制定、来源导航和答案提取在学科特定标准下的交互作用。对于课程而言,这些失败不仅仅是模型错误。它们是学生可以检查AI中介工作何处出错以及人类责任仍然存在之处的案例。  

主要贡献如下:  
- •我们引入基准构建作为一种基于课程的方法,用于教授可问责的AI中介知识工作。该活动从直接接触一个AI时代的生产力工具开始,然后要求学生设计可验证的任务、捍卫证据并检查模型失败。  
- •我们呈现QuestBench,一个基准和课程工件,包含14个人文与社会科学领域的256个专家级深度研究问题。构建过程结合了学生的学科专长、对抗性同伴审查、反捷径验证和多轮质量控制。  
- •我们评估了13个最先进的深度搜索系统在QuestBench上的表现,并识别出重复出现的失败模式,包括检索失败、无依据推断、实体混淆和答案提取错误。这些结果表明学生设计的任务可以使隐藏的AI失败变得可见。  
- •我们利用五位学生贡献者的反思来讨论学生如何理解工具、定义问题、判断证据,并在AI中介的知识工作中定位自己的责任。我们将其视为对AI教育影响的持续探究的一部分。  

## 2 背景与定位  
本文将基准构建既视为一种评估实践,也视为一种可问责AI中介知识工作的教学实践。因此,我们将相关工作围绕三个问题组织:学生需要学习检查哪种类型的AI工作、为什么此类工作需要专家评估、以及基准构建如何成为AI教育的一部分。  

### 2.1 超越工具使用的AI教育  
AI教育通常从使用开始。学生学习如何提示系统、获得有用的输出,并将AI应用于阅读、写作、编程或研究任务。这种初次接触很重要,因为学生需要与正在进入知识工作的工具打交道。然而,仅仅工具使用并不能教会学生如何定义任务、检查产生答案的过程、验证证据是否充分,或决定结果是否可以被负责任地使用。QuestBench通过将AI同时视为工具和研究对象来弥补这一差距。该课程从一个具体的生产力工具开始,然后要求学生定义评估任务、指定答案标准、测试捷径并分析失败。因此,基准构建是教学活动,而不仅仅是数据收集过程。它将可问责性从抽象规范转化为学生可以实践的一系列操作。  

### 2.2 深度研究作为具体的AI教学案例  
深度研究系统对于这个教育问题是一个有用的案例,因为它们在一个工作流中执行知识工作的多个部分。早期的基准如Natural Questions[18 (https://arxiv.org/html/2605.21413#bib.bib33)]、TriviaQA[14 (https://arxiv.org/html/2605.21413#bib.bib34)]和HotpotQA[33 (https://arxiv.org/html/2605.21413#bib.bib44)]评估了基于检索的推理和多跳问答。搜索增强的评估如FreshLLMs[29 (https://arxiv.org/html/2605.21413#bib.bib23)]和GAIA[21 (https://arxiv.org/html/2605.21413#bib.bib18)]则转向动态工具使用助手。最近的研究关注代理搜索:BrowseComp[31 (https://arxiv.org/html/2605.21413#bib.bib5),36 (https://arxiv.org/html/2605.21413#bib.bib8)]和DeepSearchQA[12 (https://arxiv.org/html/2605.21413#bib.bib6)]评估搜索密集型问答,而ResearchArena[15 (https://arxiv.org/html/2605.21413#bib.bib16)]和DeepResearch Bench[9 (https://arxiv.org/html/2605.21413#bib.bib7)]评估研究代理。专注于RAG的工作如FRAMES[17 (https://arxiv.org/html/2605.21413#bib.bib24)]和RAGChecker[27 (https://arxiv.org/html/2605.21413#bib.bib25)]提供更细粒度的检索诊断。这些系统不再是简单的答案引擎。它们搜索、阅读、综合、引用,并决定何时响应看起来完整。这使得它们成为强大的生产力工具,同时也使它们的失败更难被学生注意到。一个有来源支持的答案可能看起来像知识,即使它建立在错误的查询、混乱的文档、缺失的来源或不精确的术语之上。QuestBench使用深度研究作为代表性案例,教授学生如何检查最终答案背后的AI中介工作过程。  

### 2.3 专家评估作为教育标准的来源  
专家级基准表明,仅仅通用工具使用是不够的。GPQA[26 (https://arxiv.org/html/2605.21413#bib.bib47)]针对研究生级别的问题,通过专家与非专家的差距进行验证。Humanity's Last Exam[25 (https://arxiv.org/html/2605.21413#bib.bib27)]筛选出目前AI无法解决的问题。MMLU-Pro[30 (https://arxiv.org/html/2605.21413#bib.bib29)]和SuperGPQA[20 (https://arxiv.org/html/2605.21413#bib.bib30)]扩展了封闭式学术难度。PaperBench[28 (https://arxiv.org/html/2605.21413#bib.bib19)]测试研究工件的复制,而AgentBench[19 (https://arxiv.org/html/2605.21413#bib.bib20)]和τ-bench[34 (https://arxiv.org/html/2605.21413#bib.bib21)]拓宽了工具使用评估。特定领域的基准如LegalBench[11 (https://arxiv.org/html/2605.21413#bib.bib28)]、PubMedQA[13 (https://arxiv.org/html/2605.21413#bib.bib31)]和FinQA[5 (https://arxiv.org/html/2605.21413#bib.bib32)]评估了各个领域内的专门推理,而WebArena[37 (https://arxiv.org/html/2605.21413#bib.bib37)]和Mind2Web[8 (https://arxiv.org/html/2605.21413#bib.bib38)]研究在真实Web环境中的任务完成。QuestBench借鉴了这一评估传统,但以专家级难度服务于课程目的。学生必须指定什么使问题有意义、什么使答案可验证、什么证据算数、以及哪些区别不能被简化。使问题对AI系统困难的相同属性,包括专门来源、精确术语、反捷径结构和明确的评分标准,也使得它有助于教授学生如何对AI中介知识工作负责。  

### 2.4 基准构建作为AI教学法  
大多数基准工作将构建视为研究方法:专家或注释者创建任务,以便模型可以被评估。QuestBench保留了这一研究功能并增加了课程功能。学生构建判断AI输出的条件:他们定义任务、捍卫答案、审计捷径,并在明确标准下对模型输出进行评分。这种框架不同于工具导向的AI素养。提示和高效使用很重要,但它们本身并不能教学生知识如何变得可信。基准构建要求学生指定AI答案应被视为正确的条件。这就是教育价值所在:问题定义、证据纪律、同行审查和判断责任都成为任务的一部分。表1 (https://arxiv.org/html/2605.21413#S2.T1)总结了高级基准属性。我们

相似文章

介绍 BenchBench(5分钟阅读)

TLDR AI

介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

介绍 HealthBench

OpenAI Blog

OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。

JobBench:让智能体工作与人类意愿对齐

arXiv cs.AI

JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。