@rohanpaul_ai: 新的微软与约克大学论文认为,在没有明确测试和更窄的声明之前,不应将LLM视为类人…

X AI KOLs Following 论文

摘要

微软与约克大学的一篇论文指出,由于实验设计存在缺陷,将类人属性归因于LLM是有问题的,并以《帝国时代II》为例说明测量问题。

微软与约克大学的新论文认为,在没有明确测试和更窄声明的情况下,不应将LLM视为类人。 许多研究询问LLM是否具有理解力、同理心、焦虑或自我意识等特性,但往往从一开始就将这些概念植入测试中。 作者表明,从原理上讲,这款老策略游戏可以实现逻辑门、训练一个小型感知器,并作为计算的基础。 如果同一个语言模型能在游戏内部重建,由移动的山羊作为比特,当它产生相同句子时,我们是否还会说它“理解”、“感到焦虑”或“有同理心”? 重点不在于游戏本身有秘密智能,而在于相同的计算可以用非常不同的形式表示。 如果一个类似LLM的系统在游戏内部重建,其答案可能相似,但人们很可能对其“感受”或“理解”不那么信服。 作者认为,这揭示了一个巨大的测量问题:许多关于LLM的类人宣称可能依赖于界面和观察者,而非系统本身。 该论文并非断定LLM绝对缺乏类人属性,也不是说所有关于AI认知的讨论都是无稽之谈。 它指出,许多实验将结论偷偷塞进了设置中:他们假设模型具有或不具有类人属性,然后通过该假设来解释行为。 ---- 链接 – arxiv. org/abs/2605.31514 标题:《如果LLM具有类人属性,那么《帝国时代II》也具有》
查看原文
查看缓存全文

缓存时间: 2026/06/20 22:23

新微软+约克大学论文认为,LLM不应被当作人类对待,除非有明确测试和更窄的声明。

许多研究都在询问LLM是否具备理解、共情、焦虑或自我意识等能力,但它们往往从一开始就将这些概念嵌入测试中。

作者指出,原则上,这款老式策略游戏可以实现逻辑门、训练一个小型感知器,并作为计算的基础载体。

如果相同的语言模型可以在游戏内重建,让山羊充当比特四处移动,那么当它输出相同句子时,我们是否还会说它“理解”、“感到焦虑”或“具有共情”?

关键不在于游戏内藏着智能,而在于相同的计算可以用截然不同的形式呈现。

如果一个类似LLM的系统在那款游戏内重建,其答案可能仍会相似,但人们很可能不再那么信服它的“感受”或“理解”。

作者认为,这表明一个严重的测量问题:许多关于LLM具备人类特质的说法,可能取决于界面和观察者,而非仅仅取决于系统本身。

论文并非断言LLM一定不具备人类属性,也非认为所有关于AI认知的讨论都是无稽之谈。

它指出,许多实验将结论偷偷塞入了预设:它们先假设模型具有(或不具有)某种人类属性,然后通过这个假设来解释行为。


链接 – arxiv.org/abs/2605.31514

标题:“如果LLM具有人类属性,那么《帝国时代II》也是如此”

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

人类心理测量问卷误判LLM行为特征

Hugging Face Daily Papers

本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。