@rohanpaul_ai: 新的微软与约克大学论文认为,在没有明确测试和更窄的声明之前,不应将LLM视为类人…
摘要
微软与约克大学的一篇论文指出,由于实验设计存在缺陷,将类人属性归因于LLM是有问题的,并以《帝国时代II》为例说明测量问题。
查看缓存全文
缓存时间: 2026/06/20 22:23
新微软+约克大学论文认为,LLM不应被当作人类对待,除非有明确测试和更窄的声明。
许多研究都在询问LLM是否具备理解、共情、焦虑或自我意识等能力,但它们往往从一开始就将这些概念嵌入测试中。
作者指出,原则上,这款老式策略游戏可以实现逻辑门、训练一个小型感知器,并作为计算的基础载体。
如果相同的语言模型可以在游戏内重建,让山羊充当比特四处移动,那么当它输出相同句子时,我们是否还会说它“理解”、“感到焦虑”或“具有共情”?
关键不在于游戏内藏着智能,而在于相同的计算可以用截然不同的形式呈现。
如果一个类似LLM的系统在那款游戏内重建,其答案可能仍会相似,但人们很可能不再那么信服它的“感受”或“理解”。
作者认为,这表明一个严重的测量问题:许多关于LLM具备人类特质的说法,可能取决于界面和观察者,而非仅仅取决于系统本身。
论文并非断言LLM一定不具备人类属性,也非认为所有关于AI认知的讨论都是无稽之谈。
它指出,许多实验将结论偷偷塞入了预设:它们先假设模型具有(或不具有)某种人类属性,然后通过这个假设来解释行为。
链接 – arxiv.org/abs/2605.31514
标题:“如果LLM具有人类属性,那么《帝国时代II》也是如此”
相似文章
如果大语言模型具有类人属性,那么《帝国时代II》也具有
本文认为,将类人属性归因于大语言模型是有问题的,因为类似的论断也可用于更简单的系统,例如在《帝国时代II》上训练的人工智能,并提出了非唯一性的零假设以避免循环推理。
@MilesCranmer: 这篇论文太疯狂了,我超爱 https://arxiv.org/abs/2605.31514
本文指出,通常归因于大型语言模型的拟人化特征并非其独有,而是证明了像《帝国时代 II》这样更简单的系统也能表现出类似的感知特性,并呼吁在AI行为分析中建立明确的衡量标准。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
人类心理测量问卷误判LLM行为特征
本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。
@rohanpaul_ai: Yann LeCun 表示,LLM 在价值或投资上并非泡沫——它们将驱动许多实际应用并证明当前基础设施投资的合理性。
Yann LeCun 认为,LLM 在价值或投资上并非泡沫,因为它们将推动许多实际应用并证明当前基础设施支出的合理性;真正的泡沫在于假设 LLM 能够实现人类级别的思考。