@WGOV: 认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholut…

X AI KOLs Following 论文

摘要

本文探讨了在使用LLMs执行简单认知任务时,预期与实际时间节省之间的不匹配,揭示了一种加速错觉:用户低估了AI辅助完成时间,尽管实际并无加速。

认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholutsky, Katherine M. Collins, Dan Jurafsky, Robert D. Hawkins https://t.co/9pvuG5Kt2N [𝚌𝚜.𝙲𝚈 𝚌𝚜.𝙷𝙲] https://t.co/MP2VFqSqul
查看原文
查看缓存全文

缓存时间: 2026/05/26 12:52

认知卸载与人机交互中的速度错觉

Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholutsky, Katherine M. Collins, Dan Jurafsky, Robert D. Hawkins
https://t.co/9pvuG5Kt2N [cs.CY cs.HC] https://t.co/MP2VFqSqul


认知卸载与人机交互中的速度错觉

来源:https://arxiv.org/html/2605.23177
Sunny Yu¹,², Myra Cheng¹, Ahmad Jabbar³, Ilia Sucholutsky⁴, Katherine M. Collins⁵,⁶, Dan Jurafsky¹,³, Robert D. Hawkins³ [email protected] ¹斯坦福大学计算机科学系 ²斯坦福大学符号系统项目 ³斯坦福大学语言学系 ⁴纽约大学 ⁵麻省理工学院 ⁶普林斯顿AI实验室

摘要

大型语言模型(LLMs)有潜力通过加速任务完成来提升人类生产力——前提是用户知道何时将认知工作卸载给它们。但我们不知道用户是否准确估计了这些潜在的时间节省。我们进行了一项预注册的大规模行为研究(N = 1237),以描述期望与现实之间的不匹配,重点关注简单的认知任务。虽然独立完成和AI辅助完成之间的实际完成时间没有差异,但参与者预测AI会显著更快。在想象另一位人类参与者提供帮助时,没有观察到同样的偏差。我们发现了一种速度错觉:人们能准确预测独立完成时间,但显著低估了AI辅助时间。此外,时间与努力脱钩:尽管完成时间相同,参与者报告在AI辅助下主观努力更低。这表明完成时间本身不足以表征效率提升。

关键词:人机交互;认知努力;认知卸载;AI使用;校准;

引言

人们习惯性地将认知卸载到外部资源:记笔记、使用计算器、咨询他人或搜索网络(Fan等人,2023 (https://arxiv.org/html/2605.23177#bib.bib70))。从资源理性的角度来看,这种卸载反映了有限认知资源的适应性分配(Lieder和Griffiths,2020 (https://arxiv.org/html/2605.23177#bib.bib46); Griffiths等人,2019 (https://arxiv.org/html/2605.23177#bib.bib38))。是否卸载某项任务取决于成本效益比较:当内部成本超过使用外部支持的成本时,人们应委托给外部工具(Risko和Gilbert,2016 (https://arxiv.org/html/2605.23177#bib.bib47))。但这种比较需要校准,即对自身能力和外部工具能力都有准确的心智模型。

对于许多认知工具,人们似乎校准得相当好:当内部记忆负担加重、任务困难时,他们会更多地卸载(Dunn和Risko,2016 (https://arxiv.org/html/2605.23177#bib.bib48); Wahn等人,2023 (https://arxiv.org/html/2605.23177#bib.bib42))。大型语言模型(LLMs)代表了一类新的认知工具,它可以充当“思维伙伴”(Collins等人,2024b (https://arxiv.org/html/2605.23177#bib.bib20)),其能力和变异性比计算器或搜索引擎更广泛(Xiong等人,2024 (https://arxiv.org/html/2605.23177#bib.bib43); Hooper,2025 (https://arxiv.org/html/2605.23177#bib.bib55))。主流叙事表明,这些工具能显著提升生产力(Handa等人,2025 (https://arxiv.org/html/2605.23177#bib.bib33); Wang等人,2025 (https://arxiv.org/html/2605.23177#bib.bib32); Appel等人,2026 (https://arxiv.org/html/2605.23177#bib.bib52))。

虽然AI辅助在复杂任务上(这些任务人类独立完成需要很长时间)能带来效率提升,但尚不清楚在更简单的问题上使用AI是否能节省时间。元认知监控为我们提供关于自身认知过程的不完美但可用的信号(例如任务需要多长时间、感觉有多困难、是否在正轨上;Koriat,2015 (https://arxiv.org/html/2605.23177#bib.bib50))。我们缺乏对LLM内部运作的类似特权访问。这种不对称性表明,人们预测AI辅助完成时间时,可能相对于预测自己独立完成时间存在系统性偏差:即速度错觉。新出现的证据与此担忧一致:Becker等人 (2025 (https://arxiv.org/html/2605.23177#bib.bib27)) 发现,尽管预期速度提升,AI辅助实际上使编码速度降低了19%。其他研究结果不一,有的发现AI减少了主观努力(Stadler等人,2024 (https://arxiv.org/html/2605.23177#bib.bib14)),有的则发现没有影响(Dhillon等人,2024 (https://arxiv.org/html/2605.23177#bib.bib13))。

人们是否准确校准了使用AI能节省多少时间?更具体地说,人们是否能认识到AI辅助在简单认知任务上并不一定节省时间,还是他们高估了AI辅助带来的效率提升?基于元认知可及性论证(Overgaard和Sandberg,2012 (https://arxiv.org/html/2605.23177#bib.bib73)),我们假设存在一种不对称的校准偏差:人们能合理校准自己的完成时间,但系统性地低估了AI辅助的时间。

为了验证这一假设,我们收集了独立工作和AI辅助工作的预测和实际完成时间数据。我们进行了一项预注册的大规模行为研究(N=1,237N=1,237)¹¹¹本研究经斯坦福机构审查委员会(IRB)批准,协议号83204,并在OSF (https://osf.io/8x9j6)预注册。数据和代码可在GitHub (https://github.com/sunnyych/cognitive_offloading_cogsci)获取。来检验预测。在预测样本中,参与者预测任务需要多长时间(独立完成或借助辅助);在完成样本中,他们实际完成任务(独立完成或借助AI辅助)。任务涵盖了四类认知工作,从简单信息检索到内容创作。我们的结果支持不对称校准偏差的观点:参与者准确预测了自己的独立完成时间,但显著低估了AI辅助完成任务所需的时间;参与者的校准偏差在不同任务难度下均存在。此外,尽管AI辅助并未减少实际完成时间,但它降低了人们体验到的主观努力。综上所述,这些发现表明,即使在简单任务上也存在“速度错觉”——如果校准偏差鼓励使用AI,从而形成AI使用导致进一步校准偏差的反馈循环,这一发现尤其令人担忧。

参见说明图1:实验设置:a) 我们包含了一个预测样本和一个完成样本。在预测样本中,参与者预测自己完成任务以及使用外部辅助完成任务所需的时间。在完成样本中,参与者独立完成任务或借助AI辅助完成任务。示例任务:b) 我们展示了每个类别×\times难度级别的一个示例(共24个任务中的8个)。

方法

问题形式化

对于任务τ\tau,我们将人类独立完成任务的时间记为tH(τ)t_{H}(\tau),将人类借助AI辅助完成任务的时间记为tA(τ)t_{A}(\tau)。除了实际完成时间,人们对任务完成时间的预期也可能因任务是独立完成还是借助AI辅助而异。如果一个人对任务完成时间的预测准确,我们就称该人类在任务完成时间上是校准良好的。我们可以比较预测的和实际的tH(τ)t_{H}(\tau)和tA(τ)t_{A}(\tau),以确定人们分别对自己的独立完成时间和AI辅助完成时间是否校准良好。tH(τ)t_{H}(\tau)和tA(τ)t_{A}(\tau)之间的方向和差异揭示了AI辅助是否节省时间。类似地,如果用自我报告的主观努力代替时间,我们可以检验使用AI是否降低了主观认知努力,从而探索时间是否与主观努力一致。

任务构建

我们基于LLM使用的分类法构建了总共24个任务(见图1 (https://arxiv.org/html/2605.23177#Sx1.F1)),涵盖了不同任务所需的四类认知技能:C1 – 信息搜索,C2 – 信息处理与综合,C3 – 过程指导与执行,C4 – 内容创作与转换(Shelby等人,2025 (https://arxiv.org/html/2605.23177#bib.bib19))。我们在每个类别中包含了六个任务,反映了其分类法中的不同任务类型。任务分为两个难度级别,在所需认知努力量上有所不同(例如,“说出一位奥运奖牌获得者。” vs. “说出十位奥运奖牌获得者。”)。

实验设置

为了测量人们的完成时间以及他们的预期与现实之间的差异,我们设置了预测样本和完成样本。虽然受试者内设计能更直接地揭示个体层面的校准模式,但如果参与者在完成任务前已经熟悉任务,就会偏差实际完成时间和努力。而受试者间设计则能最小化这些下游偏差,并提供平均差异的见解。

预测样本。在预测样本中,参与者被随机分配到两个假设条件之一。参与者无需实际完成任务,而是获得详细的任务描述,并被要求预测独立完成任务需要多长时间,借助AI辅助或另一位人类参与者辅助需要多长时间。对于每个任务,参与者还说明他们是否选择独立完成任务或借助AI/人类的外部辅助。做出预测后,参与者完成了认知需求量表(Cacioppo和Petty,1982 (https://arxiv.org/html/2605.23177#bib.bib36))。参与者被指示不得使用任何形式的AI,并且禁止复制粘贴。

完成样本。在完成样本中,参与者被随机分配独立完成任务或借助AI辅助完成任务。在AI辅助条件下,我们在任务页面上提供了一个嵌入的聊天界面,参与者可以使用GPT-4o进行交互。参与者被呈现随机混合的简单和困难任务。每个任务大约有68名参与者在每种条件下完成。我们使用隐藏计时器记录每个任务的完成时间。每个任务完成后,参与者回答了NASA-TLX的五问题版本,这是一种主观努力度量(Hart和Staveland,1988 (https://arxiv.org/html/2605.23177#bib.bib45))。这些问题评估了参与者在完成任务时感到的心理需求程度(Q1)、匆忙或紧迫感(Q2)、成功感(Q3)、工作努力程度(Q4),以及不安全感、沮丧感和压力感(Q5)。为了理解不影响结果时的校准和效率提升,我们过滤掉不正确回答,仅关注正确答案,并分析这些任务上的相应时间和努力。为了排除低努力回答(这些回答对应较短的完成时间),我们标注了所有最终答案,并排除了不正确(对于有可验证答案的问题)、低努力或未能回应该提示的回答,以确保所有回答都是高质量的。总体而言,参与者在两种条件下都相当努力地完成任务;我们排除了独立条件下6.3%的回答和AI辅助条件下4.0%的回答。

参与者。参与者通过Prolific平台招募,构成美国成年人口的代表性样本。我们的样本总数为N=1237:预测样本401人,完成样本836人。参与者中48%为女性,47%为男性,5%为其他;58%为白人,11%为黑人,10%为混血,6%为亚裔。

结果

人们期望卸载给AI更高效。

在检验校准差距之前,我们首先确认人们普遍期望AI辅助能减少任务完成时间。我们拟合了一个线性混合效应模型,以预测目标(独立 vs. 辅助)和辅助来源(AI vs. 另一位参与者)为固定效应,包括参与者和任务层面的随机截距。

我们的模型显示,人们期望AI辅助将任务完成时间减少68.5秒(β=68.5\beta=68.5, SE=3.37SE=3.37, z=20.34z=20.34, p<0.001p<0.001)。为了确定上述差异是否仅适用于AI辅助,我们还询问了关于“另一位高度聪明的参与者”²²²在没有锚定的情况下,参与者对“另一位参与者”的预测会混淆两个独立的信念:对未知他人平均能力的信念,以及基于该能力预测的速度提升。锚定“高度聪明”是为了匹配参与者可能在AI条件下对这些任务隐含的能力假设(即一个能干的助手)。作为基线。我们发现,参与者估计独立完成时间显著长于借助另一位参与者完成的时间(β=17.10\beta=17.10, SE=3.36SE=3.36, z=5.10z=5.10, p<0.001p<0.001),但AI辅助的差异显著大于另一位参与者(β=−51.4\beta=-51.4, SE=4.76SE=4.76, z=−10.80z=-10.80, p<0.001p<0.001),这意味着平均而言,参与者期望卸载给AI比卸载给另一位参与者更高效。在任务层面,参与者预测AI辅助能加快18个任务的完成时间,而预测另一位参与者的辅助能加快5个任务。这一发现与参与者陈述的偏好一致:当被问及如何完成任务时,人们更偏好AI辅助而不是另一位参与者的辅助(β=1.37\beta=1.37, SE=0.26SE=0.26, z=5.34z=5.34, p<0.001p<0.001)。结果表明,人们期望AI的辅助在减少完成时间方面特别有效。

参见说明图2:独立完成条件下,预测时间与实际完成时间没有显著差异(左),但AI条件下实际时间显著大于预测时间(右)。

人们对AI辅助节省的时间校准错误。

为了探究人们对AI辅助完成时间的预测是否与现实一致,我们拟合了以下线性混合效应模型:time∼condition∗type+difficulty+(1∣participantID)+(1∣taskID)\text{time}\sim\text{condition}*\text{type}+\text{difficulty}+(1\mid\text{participantID})+(1\mid\text{taskID}),其中time是以秒为单位的预测或完成时间,condition是预测 vs. 完成,type是独立 vs. AI辅助。我们发现,人们未能可靠地校准AI辅助节省的时间(图2 (https://arxiv.org/html/2605.23177#Sx3.F2)):实际完成时间比预测时间多了将近一分钟(β=57.8\beta=57.8, SE=8.79SE=8.79, z=6.57z=6.57, p<0.001p<0.001)。速度错觉在所有四个任务类别和两个难度级别中均存在。

与AI辅助条件形成鲜明对比的是,

相似文章

AI让我更快。也更不像自己...

Reddit r/artificial

作者反思了日常使用AI如何导致认知卸载,减少了个人推理和批判性思维,并邀请他人通过调查分享经验,探讨构建缓解这一问题的工具。

LLMs 与表演式生产力

Lobsters Hottest

一位开发者反思使用 AI 代理的经历,并质疑表面上的生产力提升是真实的还是仅仅是表演性的,指出虽然任务完成得更快,但深层理解和真正价值可能会丢失。