心智理论——LLM与人类
摘要
一篇关于LLM心智理论与人类心智理论差异的反思,认为LLM由于依赖客观数据而缺乏情感共情,而人类则整合了主观体验。
我刚刚在思考LLM的心智能力与人类心智能力之间的差异,并意识到这触及了LLM与人类区别的核心,即我们收集信息的方式。LLM基于客观数据,例如文本、数字、像素等。而我们人类则使用主观信息,例如感受、感觉、体验,以及客观数据。在认知科学中,这被描述为情感共情与认知共情。换句话说,LLM只拥有认知层面的心智理论,而我们则同时拥有认知*与*情感的心智理论。我对像Hinton这样声称AI已经具备意识的人感到困扰,因为他的整个框架建立在一个观点上:意识(主观体验)只是计算过程的产物(一种幻觉),因此不承认主观度量——现实只由我们能够客观测量(通过固定指标)的事物来定义。我认为这未能认识到的是,在追求可重复结果的过程中,由于需要固定指标,我们抛弃了另一整套度量方式,即主观(可变)的度量。
相似文章
心智理论提升是否真的有益于人机交互?来自交互评估的实证发现
本文针对大语言模型的心智理论能力提出了一种新的交互评估范式,发现静态基准测试上的提升并不能转化为动态人机交互中的更好表现,凸显了基于交互评估的必要性。
LLMs 能内省吗?现实检验
本文认为,近期关于LLMs内省能力的说法并不成立,因为仅凭行为证据无法区分真正的内省与基于表面线索的模式匹配。作者重新审视了两种评估范式,发现模型依赖于输入层特征,而非真正访问内部状态。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进
HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。
OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。