人类成年人与大语言模型作为科学家:谁从主动探索中受益?
摘要
本研究探讨了主动探索是否能帮助成年人克服因果推理中的“合取性缺陷”,并在blicket探测器任务中将人类表现与大语言模型进行比较。结果表明,主动探索改善了成年人的合取推理能力,尽管仍存在一些差距,而大语言模型接近人类的准确性,但探索效率较低。
arXiv:2606.06464v1 Announce Type: cross
摘要:因果学习文献中一个长期存在的发现是,成年人在识别合取因果规则(即一个效应需要多个原因同时存在)时存在困难,而在析取情境中表现更好。然而,大多数对“合取性缺陷”的演示依赖于被动观察范式,其中证据有限,学习者无法控制证据生成。本文探讨了当成年人通过主动探索获得自主性时,这种偏差是否仍然存在。使用改进的“blicket探测器”任务,成年参与者自由进行干预,以在合取或析取规则结构下识别因果对象。我们表明,主动探索显著改善了成年人的合取因果推理,尽管合取规则仍然比析取规则需要更多的测试来推断。我们进一步将人类表现与同一设置下的多种大语言模型进行比较。虽然一些最先进的模型在假设推断准确性方面接近人类水平,但它们通常表现出较低效的探索策略以及类似的合取-析取表现差距。
查看缓存全文
缓存时间: 2026/06/08 09:15
# 人类成年人与大语言模型作为科学家:谁从主动探索中获益?
来源:https://arxiv.org/html/2606.06464
Mandana Samiei1,2∗Eunice Yiu3∗Anthony GX\-Chen4Dongyan Lin5Jocelyn Shen6 Blake A\. Richards1,2,7Alison Gopnik3Doina Precup1,21Mila \- Quebec AI Institute2麦吉尔大学3加州大学伯克利分校4纽约大学 5Meta FAIR6MIT媒体实验室7蒙特利尔神经研究所 ∗同等贡献。通讯作者:mandana\.samiei@mail\.mcgill\.ca, ey242@berkeley\.edu
###### 摘要
因果学习文献中的一个长期发现是,成年人难以识别合取因果规则(即一个效应需要多个原因同时存在才能产生),而在析取情境中表现更好。然而,这种“合取缺陷”的多数演示依赖于证据有限的被动观察范式,学习者无法控制证据生成。本文探讨当成年人通过主动探索获得自主权时,这种偏差是否仍然存在。我们使用修改后的“Blicket检测器”任务,让成年参与者在合取或析取规则结构下自由干预以识别因果对象。结果表明,主动探索显著改善了成年人的合取因果推理能力,尽管合取规则仍需比析取规则更多的测试来推断。我们进一步将人类表现与同一设置下的多个大语言模型进行比较。虽然一些最先进的模型在假设推理准确性上接近人类水平,但它们通常表现出较低效的探索策略和类似的合取-析取表现差距。
关键词:因果学习;主动学习;信息增益;干预;认知发展;语言模型
††footnotetext:*已接收于第48届认知科学学会年会 (CogSci 2026)*。
## 引言
理解智能体如何推断因果结构是认知科学的核心问题。因果学习支持预测、解释、干预和科学发现[14 (https://arxiv.org/html/2606.06464#bib.bib4)]。发展研究表明,即使是年幼的儿童也能从有限的证据中推断潜在的因果变量、推理未观察到的机制,并区分相关性与因果性[4 (https://arxiv.org/html/2606.06464#bib.bib1),12 (https://arxiv.org/html/2606.06464#bib.bib18),9 (https://arxiv.org/html/2606.06464#bib.bib3)]。
这些工作大多依赖于“Blicket检测器”范式[4 (https://arxiv.org/html/2606.06464#bib.bib1)],在该范式中,学习者观察一台机器,当特定物体或物体组合放在其上时,机器会激活。该文献中一个显著且或许违反直觉的发现是,儿童在学习抽象因果结构方面有时优于成年人。成年人通常默认使用“析取”(OR)规则,而学龄前儿童在训练证据支持时则能轻松推断出“合取”(AND)规则[7 (https://arxiv.org/html/2606.06464#bib.bib2)]。这种成年人的“合取缺陷”已在不同文化和社会经济背景中被观察到[13 (https://arxiv.org/html/2606.06464#bib.bib6)]。
然而,这些成年人合取因果推理失败的演示完全依赖于*被动*学习范式,即学习者观察固定序列的证据,无法控制执行哪些干预。这一点很重要,因为因果学习是由干预和探索塑造的。儿童在自己设计测试时学习效率更高,而当干预是被强加而非自我导向时,成年人学习效果也更差[9 (https://arxiv.org/html/2606.06464#bib.bib3),10 (https://arxiv.org/html/2606.06464#bib.bib8),11 (https://arxiv.org/html/2606.06464#bib.bib9)]。
这些发现提出了一个关键问题:成年人真的是糟糕的合取因果学习者吗?还是因为他们无法生成和评估正确的证据来更新先验,而被动证据呈现是导致其困难的原因?
参见图注 图1:主动探索与被动观察条件下的测试结构。在主动探索条件下,参与者可以点击添加或移除Nexiom机器上的四个单独物体,并明确测试当前组合以观察机器是开启还是关闭。在被动观察条件下,每个参与者与一名主动探索参与者配对(对照组)。他们不自行执行任何操作,而是观察主动探索参与者的操作和测试结果。然后,两个条件下的参与者都被要求对哪些物体是“Nexioms”以及物体操作的规则(合取或析取)进行分类,以激活机器。我们使用新颖的“Nexiom检测器”任务来解决这个问题,这是一种类似Blicket的因果学习范式,旨在最小化熟悉的任务特定先验。成年参与者可以测试任何物体或物体组合,并决定何时有足够证据来推断因果对象和底层规则,从而允许我们比较主动和被动因果学习。
我们发现主动探索显著改变了成年人的表现。与先前的被动研究相反,主动的成年人在合取因果规则上表现出色,并生成了相对较小但信息量高的测试集。这表明成年人在合取因果推理上的失败[7 (https://arxiv.org/html/2606.06464#bib.bib2)]反映了被动证据呈现的约束,而非因果能力的固定限制。
我们进一步表明,仅仅生成信息量高的测试是不够的。提出干预但观察他人测试结果的参与者表现与被动学习者一样差。这表明当干预选择与自身偶发结果紧密耦合时,主动探索最为有效。
最后,我们通过将成年人与大语言模型(LLMs)在相同因果发现任务上进行对比,将这些发现置于更广泛的计算背景下。LLMs日益被评估为能够进行假设生成和实验的通用推理代理[8 (https://arxiv.org/html/2606.06464#bib.bib10),16 (https://arxiv.org/html/2606.06464#bib.bib11)],最近的工作已将它们置于Blicket风格的环境中,让它们选择干预以观察结果[5 (https://arxiv.org/html/2606.06464#bib.bib12)]。这使其成为检验主动干预是否足以成功进行因果发现的自然对比案例。我们发现LLMs并未一致地从选择自身干预中获益,并且仍在合取规则上落后于表现最好的人类探索者。
总之,这些结果表明,成功的因果发现关键在于保持自我生成的干预与其偶发结果之间的紧密耦合。仅靠主动干预是不够的:有效的因果学习需要自适应搜索策略和逐步的假设修剪,尤其是在合取环境中。
## 方法
### Nexiom检测器软件。
我们开发了一个自定义的基于Web的平台——Nexiom Text Adventure111https://nexiom-text-game.streamlit.app/,用于研究人类成年人的主动因果推理。该任务在功能上等同于经典的Blicket检测器范式,但使用了新颖的术语“nexiom”以最小化来自已建立Blicket文献的先验知识。该平台使用Streamlit实现,支持结构化实验环节,涉及基于文本的场景,包含交互式物体选择和明确的因果测试,并记录详细的行为数据,包括物体选择、测试序列、测试结果、响应时间、物体识别准确性和规则推理判断。每个环节由理解阶段和主测试阶段组成。
实验。参与者被分配到“主动探索”或“被动观察”条件。主动探索参与者进行不受限制的因果探索,以识别因果对象和底层因果规则。他们可以自由选择物体、测试任意组合,并决定何时停止探索;而被动观察参与者只能观察配对主动探索参与者的操作和测试结果(对照组),以了解机器的底层因果假设。在探索之后,参与者首先被要求识别他们认为哪些物体是“nexioms”并能开启机器。接下来,他们被明确告知两种可能的规则类型(合取与析取),并被要求选择他们相信支配机器的规则。图1 (https://arxiv.org/html/2606.06464#Sx1.F1)说明了实验流程。我们使用被动观察条件来复制先前关于成年人合取因果学习的模糊证据范式[7 (https://arxiv.org/html/2606.06464#bib.bib2),3 (https://arxiv.org/html/2606.06464#bib.bib14)](见图2 (https://arxiv.org/html/2606.06464#Sx2.F2))。我们还进行了一个补充性的“被动提议者”实验,以分离主动探索的益处是来自干预规划本身还是来自接收自身干预的偶发反馈。被动提议者被允许主动生成假设并提出干预,但不直接观察自己提议测试的结果。相反,他们接收匹配的主动探索参与者产生的结果。最后,我们将相同的主动探索框架扩展到几个大语言模型。模型被允许通过添加或移除物体来顺序选择干预,测试产生的组合,并观察机器结果。原则上,我们为LLMs提供了与人类学习者相同的行动空间。模型评估使用了与人类实验相同的合取和析取因果结构,从而可以在智能体之间直接比较探索行为、物体识别和规则推理。
参见图注 图2:不同年龄组的规则推理准确性。先前研究[3 (https://arxiv.org/html/2606.06464#bib.bib14)]中儿童和成年人在给定模糊被动观察数据时的表现(虚线左侧)与当前研究中成年人的表现(虚线右侧)进行比较。
### 数据。
总共306名成年参与者(年龄:22–35岁,Mage=30.41M_{\mathrm{age}}=30.41,SDage=3.94SD_{\mathrm{age}}=3.94;153名女性,153名男性)通过Prolific222https://www.prolific.com招募,按照IRB批准的协议完成在线实验。102名参与者被分配到主动探索条件,102名被分配到被动观察条件,另外102名被分配到被动提议者条件。两个被动条件下的参与者与唯一的主动探索参与者随机配对,形成被动对照组。只有成功完成实验的参与者被纳入分析。在每个条件下,参与者在测试阶段被随机分配到两种受试者间因果规则之一:N=51N=51被分配到合取条件,另外N=51N=51333在本文中,“顶级人类”指的是每个条件下表现最好的参与者,定义为那些达到完全假设推理准确性的参与者。被分配到析取条件。为了比较人类因果探索与人工智能体在匹配交互设置下的表现,我们使用语言模型进行了实验,每种规则类型(合取/析取)进行24次试验,每个模型总共48次试验。这24次试验由6种独特的因果配置组成,对应于从4个物体中选择2个Blicket的所有可能组合,每种配置评估四次。我们测试了六个语言模型,涵盖面向推理和非推理的智能体:gpt-5、gpt-5-mini、gemini-2.5-flash、deepseek-reasoner、o4-mini和deepseek-chat。在所有模型和规则条件下,总共产生了288次LLM评估试验(使用温度=0.00.0)。
### 评估指标。
我们使用了三个二元准确性度量(得分0或1)来评估参与者的因果理解,并从所有分析中排除了另外4名有先前经验的参与者。物体识别准确性定义为选择正确因果对象集(“nexioms”)的参与者的比例。只有当参与者选择的集合与真实nexioms完全匹配时,试验才被计为正确(例如,如果正确的nexioms是[2,4],选择任何其他组合都被计为不正确)。规则推理准确性定义为正确识别底层因果规则(合取与析取)的参与者的比例。完全假设准确性要求同时正确识别物体和正确推理规则。对于每个度量和规则条件,我们报告平均准确性和标准误差(见图3 (https://arxiv.org/html/2606.06464#Sx2.F3))。我们还报告了从参与者测试序列中得出的探索过程度量。累积信息增益量化了在测试中累积的不确定性减少量(以比特为单位)。在每个测试之前,我们计算与先前证据一致的假设数量;在观察到机器响应(开/关)后,我们重新计算剩余一致假设的数量:InfoGaint=log2(Nt−1)−log2(Nt)=log2(Nt−1Nt)\text{InfoGain}_{t}=\log_{2}(N_{t-1})-\log_{2}(N_{t})=\log_{2}\left(\frac{N_{t-1}}{N_{t}}\right),其中Nt−1N_{t-1}是在测试tt之前一致的假设数量,NtN_{t}是在测试tt之后一致的假设数量。直到测试kk的累积信息增益定义为CumInfoGaink=∑t=1kInfoGaint\text{CumInfoGain}_{k}=\sum_{t=1}^{k}\text{InfoGain}_{t}。剩余假设数量跟踪在每次测试后,还有多少个完全假设与测试结果一致。完全假设空间包括所有(Nexiom集,规则)对。我们进一步计算了每次试验的平均测试次数和每次测试所花费的时间。这些度量分别针对合取和析取条件进行报告。表1 (https://arxiv.org/html/2606.06464#Sx3.T1)和表2 (https://arxiv.org/html/2606.06464#Sx3.T2)中呈现的统计数据未考虑理解阶段所花费的时间。
### 原始数据可用性。
行为数据和分析就绪的汇总文件可在开放科学框架(OSF)(https://osf.io/fsvqb/overview?view_only=55a429715ee24f1bbccfb4d30bb7fe05)上获取。该存储库包括原始交互日志和用于本分析的已处理汇总数据。
参见图注 图3:在主动探索证据下,合取与析取因果推理的准确性。误差条为±\pm参与者之间的平均标准误差。
## 结果
除了总体准确性之外,我们的结果表明,人类参与者和语言模型都不会以随机或无指导的方式与Nexiom机器交互。相反,他们进行了旨在消除竞争性因果解决方案之间歧义的系统性探索。假设空间最初由32种可能的解释组成444对于NN个物品和两种规则类型(合取与析取),相似文章
智能体会探索却无视:大语言模型缺乏环境好奇心
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。
三思而后行:LLM 智能体的自主探索
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。