@WGOV: 认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholut…

X AI KOLs Following 2026/05/25 10:45 论文

human-ai-interaction cognitive-offloading speedup-illusion llm behavioral-study productivity calibration

摘要

本文探讨了在使用LLMs执行简单认知任务时，预期与实际时间节省之间的不匹配，揭示了一种加速错觉：用户低估了AI辅助完成时间，尽管实际并无加速。

认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholutsky, Katherine M. Collins, Dan Jurafsky, Robert D. Hawkins https://t.co/9pvuG5Kt2N [𝚌𝚜.𝙲𝚈 𝚌𝚜.𝙷𝙲] https://t.co/MP2VFqSqul

查看原文

查看缓存全文

缓存时间: 2026/05/26 12:52

认知卸载与人机交互中的速度错觉

Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholutsky, Katherine M. Collins, Dan Jurafsky, Robert D. Hawkins
https://t.co/9pvuG5Kt2N [cs.CY cs.HC] https://t.co/MP2VFqSqul

认知卸载与人机交互中的速度错觉

来源：https://arxiv.org/html/2605.23177
Sunny Yu¹,², Myra Cheng¹, Ahmad Jabbar³, Ilia Sucholutsky⁴, Katherine M. Collins⁵,⁶, Dan Jurafsky¹,³, Robert D. Hawkins³ [email protected] ¹斯坦福大学计算机科学系 ²斯坦福大学符号系统项目 ³斯坦福大学语言学系 ⁴纽约大学 ⁵麻省理工学院 ⁶普林斯顿AI实验室

摘要

大型语言模型（LLMs）有潜力通过加速任务完成来提升人类生产力——前提是用户知道何时将认知工作卸载给它们。但我们不知道用户是否准确估计了这些潜在的时间节省。我们进行了一项预注册的大规模行为研究（N = 1237），以描述期望与现实之间的不匹配，重点关注简单的认知任务。虽然独立完成和AI辅助完成之间的实际完成时间没有差异，但参与者预测AI会显著更快。在想象另一位人类参与者提供帮助时，没有观察到同样的偏差。我们发现了一种速度错觉：人们能准确预测独立完成时间，但显著低估了AI辅助时间。此外，时间与努力脱钩：尽管完成时间相同，参与者报告在AI辅助下主观努力更低。这表明完成时间本身不足以表征效率提升。

关键词：人机交互；认知努力；认知卸载；AI使用；校准；

引言

人们习惯性地将认知卸载到外部资源：记笔记、使用计算器、咨询他人或搜索网络（Fan等人，2023 (https://arxiv.org/html/2605.23177#bib.bib70)）。从资源理性的角度来看，这种卸载反映了有限认知资源的适应性分配（Lieder和Griffiths，2020 (https://arxiv.org/html/2605.23177#bib.bib46); Griffiths等人，2019 (https://arxiv.org/html/2605.23177#bib.bib38)）。是否卸载某项任务取决于成本效益比较：当内部成本超过使用外部支持的成本时，人们应委托给外部工具（Risko和Gilbert，2016 (https://arxiv.org/html/2605.23177#bib.bib47)）。但这种比较需要校准，即对自身能力和外部工具能力都有准确的心智模型。

对于许多认知工具，人们似乎校准得相当好：当内部记忆负担加重、任务困难时，他们会更多地卸载（Dunn和Risko，2016 (https://arxiv.org/html/2605.23177#bib.bib48); Wahn等人，2023 (https://arxiv.org/html/2605.23177#bib.bib42)）。大型语言模型（LLMs）代表了一类新的认知工具，它可以充当“思维伙伴”（Collins等人，2024b (https://arxiv.org/html/2605.23177#bib.bib20)），其能力和变异性比计算器或搜索引擎更广泛（Xiong等人，2024 (https://arxiv.org/html/2605.23177#bib.bib43); Hooper，2025 (https://arxiv.org/html/2605.23177#bib.bib55)）。主流叙事表明，这些工具能显著提升生产力（Handa等人，2025 (https://arxiv.org/html/2605.23177#bib.bib33); Wang等人，2025 (https://arxiv.org/html/2605.23177#bib.bib32); Appel等人，2026 (https://arxiv.org/html/2605.23177#bib.bib52)）。

虽然AI辅助在复杂任务上（这些任务人类独立完成需要很长时间）能带来效率提升，但尚不清楚在更简单的问题上使用AI是否能节省时间。元认知监控为我们提供关于自身认知过程的不完美但可用的信号（例如任务需要多长时间、感觉有多困难、是否在正轨上；Koriat，2015 (https://arxiv.org/html/2605.23177#bib.bib50)）。我们缺乏对LLM内部运作的类似特权访问。这种不对称性表明，人们预测AI辅助完成时间时，可能相对于预测自己独立完成时间存在系统性偏差：即速度错觉。新出现的证据与此担忧一致：Becker等人 (2025 (https://arxiv.org/html/2605.23177#bib.bib27)) 发现，尽管预期速度提升，AI辅助实际上使编码速度降低了19%。其他研究结果不一，有的发现AI减少了主观努力（Stadler等人，2024 (https://arxiv.org/html/2605.23177#bib.bib14)），有的则发现没有影响（Dhillon等人，2024 (https://arxiv.org/html/2605.23177#bib.bib13)）。

人们是否准确校准了使用AI能节省多少时间？更具体地说，人们是否能认识到AI辅助在简单认知任务上并不一定节省时间，还是他们高估了AI辅助带来的效率提升？基于元认知可及性论证（Overgaard和Sandberg，2012 (https://arxiv.org/html/2605.23177#bib.bib73)），我们假设存在一种不对称的校准偏差：人们能合理校准自己的完成时间，但系统性地低估了AI辅助的时间。

为了验证这一假设，我们收集了独立工作和AI辅助工作的预测和实际完成时间数据。我们进行了一项预注册的大规模行为研究（N=1,237N=1,237）¹¹¹本研究经斯坦福机构审查委员会（IRB）批准，协议号83204，并在OSF (https://osf.io/8x9j6)预注册。数据和代码可在GitHub (https://github.com/sunnyych/cognitive_offloading_cogsci)获取。来检验预测。在预测样本中，参与者预测任务需要多长时间（独立完成或借助辅助）；在完成样本中，他们实际完成任务（独立完成或借助AI辅助）。任务涵盖了四类认知工作，从简单信息检索到内容创作。我们的结果支持不对称校准偏差的观点：参与者准确预测了自己的独立完成时间，但显著低估了AI辅助完成任务所需的时间；参与者的校准偏差在不同任务难度下均存在。此外，尽管AI辅助并未减少实际完成时间，但它降低了人们体验到的主观努力。综上所述，这些发现表明，即使在简单任务上也存在“速度错觉”——如果校准偏差鼓励使用AI，从而形成AI使用导致进一步校准偏差的反馈循环，这一发现尤其令人担忧。

参见说明图1：实验设置：a) 我们包含了一个预测样本和一个完成样本。在预测样本中，参与者预测自己完成任务以及使用外部辅助完成任务所需的时间。在完成样本中，参与者独立完成任务或借助AI辅助完成任务。示例任务：b) 我们展示了每个类别×\times难度级别的一个示例（共24个任务中的8个）。

方法

问题形式化

对于任务τ\tau，我们将人类独立完成任务的时间记为tH(τ)t_{H}(\tau)，将人类借助AI辅助完成任务的时间记为tA(τ)t_{A}(\tau)。除了实际完成时间，人们对任务完成时间的预期也可能因任务是独立完成还是借助AI辅助而异。如果一个人对任务完成时间的预测准确，我们就称该人类在任务完成时间上是校准良好的。我们可以比较预测的和实际的tH(τ)t_{H}(\tau)和tA(τ)t_{A}(\tau)，以确定人们分别对自己的独立完成时间和AI辅助完成时间是否校准良好。tH(τ)t_{H}(\tau)和tA(τ)t_{A}(\tau)之间的方向和差异揭示了AI辅助是否节省时间。类似地，如果用自我报告的主观努力代替时间，我们可以检验使用AI是否降低了主观认知努力，从而探索时间是否与主观努力一致。

任务构建

我们基于LLM使用的分类法构建了总共24个任务（见图1 (https://arxiv.org/html/2605.23177#Sx1.F1)），涵盖了不同任务所需的四类认知技能：C1 – 信息搜索，C2 – 信息处理与综合，C3 – 过程指导与执行，C4 – 内容创作与转换（Shelby等人，2025 (https://arxiv.org/html/2605.23177#bib.bib19)）。我们在每个类别中包含了六个任务，反映了其分类法中的不同任务类型。任务分为两个难度级别，在所需认知努力量上有所不同（例如，“说出一位奥运奖牌获得者。” vs. “说出十位奥运奖牌获得者。”）。

实验设置

为了测量人们的完成时间以及他们的预期与现实之间的差异，我们设置了预测样本和完成样本。虽然受试者内设计能更直接地揭示个体层面的校准模式，但如果参与者在完成任务前已经熟悉任务，就会偏差实际完成时间和努力。而受试者间设计则能最小化这些下游偏差，并提供平均差异的见解。

预测样本。在预测样本中，参与者被随机分配到两个假设条件之一。参与者无需实际完成任务，而是获得详细的任务描述，并被要求预测独立完成任务需要多长时间，借助AI辅助或另一位人类参与者辅助需要多长时间。对于每个任务，参与者还说明他们是否选择独立完成任务或借助AI/人类的外部辅助。做出预测后，参与者完成了认知需求量表（Cacioppo和Petty，1982 (https://arxiv.org/html/2605.23177#bib.bib36)）。参与者被指示不得使用任何形式的AI，并且禁止复制粘贴。

完成样本。在完成样本中，参与者被随机分配独立完成任务或借助AI辅助完成任务。在AI辅助条件下，我们在任务页面上提供了一个嵌入的聊天界面，参与者可以使用GPT-4o进行交互。参与者被呈现随机混合的简单和困难任务。每个任务大约有68名参与者在每种条件下完成。我们使用隐藏计时器记录每个任务的完成时间。每个任务完成后，参与者回答了NASA-TLX的五问题版本，这是一种主观努力度量（Hart和Staveland，1988 (https://arxiv.org/html/2605.23177#bib.bib45)）。这些问题评估了参与者在完成任务时感到的心理需求程度（Q1）、匆忙或紧迫感（Q2）、成功感（Q3）、工作努力程度（Q4），以及不安全感、沮丧感和压力感（Q5）。为了理解不影响结果时的校准和效率提升，我们过滤掉不正确回答，仅关注正确答案，并分析这些任务上的相应时间和努力。为了排除低努力回答（这些回答对应较短的完成时间），我们标注了所有最终答案，并排除了不正确（对于有可验证答案的问题）、低努力或未能回应该提示的回答，以确保所有回答都是高质量的。总体而言，参与者在两种条件下都相当努力地完成任务；我们排除了独立条件下6.3%的回答和AI辅助条件下4.0%的回答。

参与者。参与者通过Prolific平台招募，构成美国成年人口的代表性样本。我们的样本总数为N=1237：预测样本401人，完成样本836人。参与者中48%为女性，47%为男性，5%为其他；58%为白人，11%为黑人，10%为混血，6%为亚裔。

结果

人们期望卸载给AI更高效。

在检验校准差距之前，我们首先确认人们普遍期望AI辅助能减少任务完成时间。我们拟合了一个线性混合效应模型，以预测目标（独立 vs. 辅助）和辅助来源（AI vs. 另一位参与者）为固定效应，包括参与者和任务层面的随机截距。

我们的模型显示，人们期望AI辅助将任务完成时间减少68.5秒（β=68.5\beta=68.5, SE=3.37SE=3.37, z=20.34z=20.34, p<0.001p<0.001）。为了确定上述差异是否仅适用于AI辅助，我们还询问了关于“另一位高度聪明的参与者”²²²在没有锚定的情况下，参与者对“另一位参与者”的预测会混淆两个独立的信念：对未知他人平均能力的信念，以及基于该能力预测的速度提升。锚定“高度聪明”是为了匹配参与者可能在AI条件下对这些任务隐含的能力假设（即一个能干的助手）。作为基线。我们发现，参与者估计独立完成时间显著长于借助另一位参与者完成的时间（β=17.10\beta=17.10, SE=3.36SE=3.36, z=5.10z=5.10, p<0.001p<0.001），但AI辅助的差异显著大于另一位参与者（β=−51.4\beta=-51.4, SE=4.76SE=4.76, z=−10.80z=-10.80, p<0.001p<0.001），这意味着平均而言，参与者期望卸载给AI比卸载给另一位参与者更高效。在任务层面，参与者预测AI辅助能加快18个任务的完成时间，而预测另一位参与者的辅助能加快5个任务。这一发现与参与者陈述的偏好一致：当被问及如何完成任务时，人们更偏好AI辅助而不是另一位参与者的辅助（β=1.37\beta=1.37, SE=0.26SE=0.26, z=5.34z=5.34, p<0.001p<0.001）。结果表明，人们期望AI的辅助在减少完成时间方面特别有效。

参见说明图2：独立完成条件下，预测时间与实际完成时间没有显著差异（左），但AI条件下实际时间显著大于预测时间（右）。

人们对AI辅助节省的时间校准错误。

为了探究人们对AI辅助完成时间的预测是否与现实一致，我们拟合了以下线性混合效应模型：time∼condition∗type+difficulty+(1∣participantID)+(1∣taskID)\text{time}\sim\text{condition}*\text{type}+\text{difficulty}+(1\mid\text{participantID})+(1\mid\text{taskID})，其中time是以秒为单位的预测或完成时间，condition是预测 vs. 完成，type是独立 vs. AI辅助。我们发现，人们未能可靠地校准AI辅助节省的时间（图2 (https://arxiv.org/html/2605.23177#Sx3.F2)）：实际完成时间比预测时间多了将近一分钟（β=57.8\beta=57.8, SE=8.79SE=8.79, z=6.57z=6.57, p<0.001p<0.001）。速度错觉在所有四个任务类别和两个难度级别中均存在。

与AI辅助条件形成鲜明对比的是，

@WGOV: 认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholut…

认知卸载与人机交互中的速度错觉

认知卸载与人机交互中的速度错觉

摘要

引言

方法

问题形式化

任务构建

实验设置

结果

人们期望卸载给AI更高效。

人们对AI辅助节省的时间校准错误。

相似文章

@ComputerPapers: 卸载分数：通过反事实工作流衡量AI依赖度 Vishakh Padmakumar, Lujain Ibrahim, Zora Zhiru…

@ZhiruoW：我们正在构建赋能人类的AI技术，这需要意识到人类对AI的依赖。我们最新的工作测量了…

AI让我更快。也更不像自己...

LLMs 与表演式生产力

@sunnyyuych: “AI，把黑色和白色混合会得到什么颜色？” 为什么人们会将简单任务交给AI完成？……

提交意见反馈