@rohanpaul_ai: 新的微软与约克大学论文认为，在没有明确测试和更窄的声明之前，不应将LLM视为类人…

X AI KOLs Following 2026/06/20 01:20 论文

anthropomorphism llm evaluation human-like measurement criticism

摘要

微软与约克大学的一篇论文指出，由于实验设计存在缺陷，将类人属性归因于LLM是有问题的，并以《帝国时代II》为例说明测量问题。

微软与约克大学的新论文认为，在没有明确测试和更窄声明的情况下，不应将LLM视为类人。许多研究询问LLM是否具有理解力、同理心、焦虑或自我意识等特性，但往往从一开始就将这些概念植入测试中。作者表明，从原理上讲，这款老策略游戏可以实现逻辑门、训练一个小型感知器，并作为计算的基础。如果同一个语言模型能在游戏内部重建，由移动的山羊作为比特，当它产生相同句子时，我们是否还会说它“理解”、“感到焦虑”或“有同理心”？重点不在于游戏本身有秘密智能，而在于相同的计算可以用非常不同的形式表示。如果一个类似LLM的系统在游戏内部重建，其答案可能相似，但人们很可能对其“感受”或“理解”不那么信服。作者认为，这揭示了一个巨大的测量问题：许多关于LLM的类人宣称可能依赖于界面和观察者，而非系统本身。该论文并非断定LLM绝对缺乏类人属性，也不是说所有关于AI认知的讨论都是无稽之谈。它指出，许多实验将结论偷偷塞进了设置中：他们假设模型具有或不具有类人属性，然后通过该假设来解释行为。 ---- 链接 – arxiv. org/abs/2605.31514 标题：《如果LLM具有类人属性，那么《帝国时代II》也具有》

查看原文

查看缓存全文

缓存时间: 2026/06/20 22:23

新微软+约克大学论文认为，LLM不应被当作人类对待，除非有明确测试和更窄的声明。

许多研究都在询问LLM是否具备理解、共情、焦虑或自我意识等能力，但它们往往从一开始就将这些概念嵌入测试中。

作者指出，原则上，这款老式策略游戏可以实现逻辑门、训练一个小型感知器，并作为计算的基础载体。

如果相同的语言模型可以在游戏内重建，让山羊充当比特四处移动，那么当它输出相同句子时，我们是否还会说它“理解”、“感到焦虑”或“具有共情”？

关键不在于游戏内藏着智能，而在于相同的计算可以用截然不同的形式呈现。

如果一个类似LLM的系统在那款游戏内重建，其答案可能仍会相似，但人们很可能不再那么信服它的“感受”或“理解”。

作者认为，这表明一个严重的测量问题：许多关于LLM具备人类特质的说法，可能取决于界面和观察者，而非仅仅取决于系统本身。

论文并非断言LLM一定不具备人类属性，也非认为所有关于AI认知的讨论都是无稽之谈。

它指出，许多实验将结论偷偷塞入了预设：它们先假设模型具有（或不具有）某种人类属性，然后通过这个假设来解释行为。

链接 – arxiv.org/abs/2605.31514

标题：“如果LLM具有人类属性，那么《帝国时代II》也是如此”

@rohanpaul_ai: 新的微软与约克大学论文认为，在没有明确测试和更窄的声明之前，不应将LLM视为类人…

相似文章

如果大语言模型具有类人属性，那么《帝国时代II》也具有

@MilesCranmer: 这篇论文太疯狂了，我超爱 https://arxiv.org/abs/2605.31514

评估 LLM 在受控实验中作为人类代理的可靠性

人类心理测量问卷误判LLM行为特征

@rohanpaul_ai: Yann LeCun 表示，LLM 在价值或投资上并非泡沫——它们将驱动许多实际应用并证明当前基础设施投资的合理性。

提交意见反馈