无理解的趋同：语言模型表征一致但推理分歧

arXiv cs.CL 2026/05/25 04:00 论文

representational-similarity platonic-representation-hypothesis language-models reasoning mechanistic-interpretability centered-kernel-alignment causal-ablation

摘要

本文通过考察来自8个家族的16个语言模型在800个推理问题上的表现，探究了Platonic Representation Hypothesis。研究发现，虽然模型在内部表征上趋于一致，但在推理过程中，尤其是决策后阶段，它们出现分歧，而且共享的表征对预测的因果影响极小。

arXiv:2605.23315v1 Announce Type: new 摘要：研究表明，在多样化目标和架构下训练的大型语言模型会逐渐形成相似的内部表征，这一观察被形式化为Platonic Representation Hypothesis。这种表征趋同是否延伸到基于共享表征的推理过程仍待检验。我们在涵盖数学、科学、常识和真实性的800个推理问题上，评估了来自8个家族的16个语言模型（参数从1.5B到72B）的表征相似性，并按问题难度、计算阶段和因果相关性进行分层。我们的分析揭示了三种分离现象：难度反转（模型在共同失败的难题上表征更趋同，中心核对齐[CKA]=0.897，而在可解问题上CKA=0.830）；生成鸿沟（决策前表征对齐，CKA=0.875，但决策后表征出现分歧，CKA=0.274）；以及附带正确性（共享信息可在模型间解码，迁移准确率66%，但对预测的因果影响极小，不同消融协议下的翻转率为1.5%至5.5%）。这些结果表明，语言模型中的表征趋同反映的是共享的输入处理约束，而非共享的推理策略，这对集成设计、可解释性迁移以及模型相似性评估具有直接影响。代码可在 https://github.com/Usama1002/convergence-without-understanding 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:00

# 无理解的趋同：当语言模型在表示上达成一致却在推理上产生分歧
Source: https://arxiv.org/html/2605.23315
\\nameMuhammad Usama\\emailusama@kaist\.ac\.kr \\addrControl Laboratory, School of Electrical Engineering Korea Advanced Institute of Science and Technology \(KAIST\) Daejeon 34141, Republic of Korea\\nameDong Eui Chang\\emaildechang@kaist\.ac\.kr \\addrControl Laboratory, School of Electrical Engineering Korea Advanced Institute of Science and Technology \(KAIST\) Daejeon 34141, Republic of Korea

###### 摘要

在多样化目标和架构下训练的大型语言模型，其内部表示日益相似，这一观察被形式化为柏拉图表示假说（Platonic Representation Hypothesis）。这种表示趋同是否会延伸到基于共享表示的推理过程，仍未经检验。本文评估了来自8个系列（1.5B至72B参数）的16个语言模型在800个推理问题（涵盖数学、科学、常识和真实性）上的表示相似性，并根据问题难度、计算阶段和因果相关性进行分层分析。我们的分析揭示了三种分离现象：**难度反转**——模型在集体失败的问题上表示更趋同（中心核对齐（CKA）= 0.897），而在成功解决的问题上趋同程度较低（CKA = 0.830）；**生成鸿沟**——决策前的表示相一致（CKA = 0.875），而决策后的表示则发散（CKA = 0.274）；以及**附带正确性**——跨模型可解码共享信息（66%的迁移精度），但其对预测的因果影响极小（在各类消融协议中翻转率为1.5%至5.5%）。这些结果表明，语言模型中的表示趋同反映了共享的输入处理约束，而非共享的推理策略，这对集成设计、可解释性迁移和模型相似性评估具有直接影响。代码见https://github.com/Usama1002/convergence-without-understanding。

关键词：表示相似性，语言模型，柏拉图表示假说，机械可解释性，中心核对齐，推理，因果消融

## 1 引言

采用不同架构、目标和数据集训练的神经网络，随着规模扩大，其内部表示越来越相似 (Hu et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib1))。这一经验规律被形式化为柏拉图表示假说 (PRH)，它认为不同模型会趋向于一个共享的现实统计模型，该模型反映了数据生成过程的结构，而非个体训练模式的特殊性。下一个词预测目标促进了线性可及的概念结构，为这种趋同提供了理论依据 (Jiang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib5))，跨模态扩展也表明，视觉、语言和音频模态的表示趋向于共同的几何结构 (Gröger et al., 2026 (https://arxiv.org/html/2605.23315#bib.bib40); Kapoor et al., 2025 (https://arxiv.org/html/2605.23315#bib.bib38))。数据集和任务重叠是这一现象的因果驱动因素 (Li et al., 2025 (https://arxiv.org/html/2605.23315#bib.bib7))，线性变换可以桥接不同LLM的表示以实现行为迁移 (Huang et al., 2025 (https://arxiv.org/html/2605.23315#bib.bib39))。其隐含意义令人震惊：如果这一假说成立，它将为迁移学习、模型可解释性以及关于神经网络学习内容的论断提供原则性基础。但问题是，这种趋同究竟意味着什么？

现有证据几乎完全依赖于在整个数据集上计算的聚合相似性度量，且未考虑模型*如何利用*这些表示。中心核对齐 (CKA) (Kornblith et al., 2019 (https://arxiv.org/html/2605.23315#bib.bib2)) 是当前的标准方法，SVCCA (Raghu et al., 2017 (https://arxiv.org/html/2605.23315#bib.bib8))、基于CCA的变体 (Morcos et al., 2018 (https://arxiv.org/html/2605.23315#bib.bib9)) 和互最近邻方法则提供了补充视角 (Klabunde et al., 2023 (https://arxiv.org/html/2605.23315#bib.bib20); Ding et al., 2021 (https://arxiv.org/html/2605.23315#bib.bib10))。然而，每种度量都有已知的局限性：CKA对不改变功能行为的变换敏感 (Davari et al., 2022 (https://arxiv.org/html/2605.23315#bib.bib35))，在某些样本-特征比率下可能接近最大值 (Murphy et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib36))，并且输入统计量可能在没有解混杂的情况下夸大分数 (Cui et al., 2022 (https://arxiv.org/html/2605.23315#bib.bib43))。更根本的是，这些研究均未根据将表示转化为预测的计算过程来调节相似性。Braun等人 (2025 (https://arxiv.org/html/2605.23315#bib.bib37)) 通过分析证明，表示相似性和功能相似性可以完全解耦。我们将此称为*无理解的趋同*问题，并对其进行实证检验。

我们直接检验表示趋同是否意味着推理趋同，研究了来自8个架构系列（1.5B至72B参数）的16个语言模型，使用从GSM8K (Cobbe et al., 2021 (https://arxiv.org/html/2605.23315#bib.bib14))、ARC-Challenge (Clark et al., 2018 (https://arxiv.org/html/2605.23315#bib.bib15))、TruthfulQA (Lin et al., 2022 (https://arxiv.org/html/2605.23315#bib.bib16)) 和HellaSwag (Zellers et al., 2019 (https://arxiv.org/html/2605.23315#bib.bib17)) 选取的800个推理问题。除了每个基准的聚合相似性分数，我们还沿着三条先前工作中未同时考察的轴线进行分层：问题难度（解决每个问题的模型比例）、计算阶段（决策前与决策后层）和因果相关性（共享表示是否驱动预测）。这种分层分析揭示了三个发现，共同挑战了表示趋同的标准解释。

首先，我们观察到**难度反转**：模型在集体失败的问题上表示更相似（CKA = 0.897），而在集体成功解决的问题上相似性较低（CKA = 0.830），这一模式由互最近邻方法确认，在四个推理领域中的三个中重现，并且在70B规模下仍然存在（第3.1节 (https://arxiv.org/html/2605.23315#S3.SS1)）。这在PRH下是出乎意料的，因为该假说预测模型在成功表示现实时趋同程度最大，特别是考虑到语言模型会发展出丰富的内部表示，包括世界模型、空间结构和结构化信念 (Li et al., 2023 (https://arxiv.org/html/2605.23315#bib.bib12); Gurnee and Tegmark, 2024 (https://arxiv.org/html/2605.23315#bib.bib13); Zhu et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib11))。我们将其机制归因于注意力熵：困难问题产生分散的注意力，从而跨架构均匀化表示 (Zhang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib41); Elhage et al., 2022 (https://arxiv.org/html/2605.23315#bib.bib23))。

其次，我们发现了**生成鸿沟**：决策前的表示趋同（CKA = 0.875），而决策后的表示发散（CKA = 0.274），这表明趋同主要是输入编码的属性，而非输出计算的属性（第3.2节 (https://arxiv.org/html/2605.23315#S3.SS2)）。这将单模型事实回忆研究中识别的编码-生成区分 (Geva et al., 2023 (https://arxiv.org/html/2605.23315#bib.bib4)) 扩展到跨模型设置，并解释了为什么模型拼接 (Bansal et al., 2021 (https://arxiv.org/html/2605.23315#bib.bib3)) 和函数向量迁移 (Todd et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib6)) 在早期层成功，但在后期层退化。

第三，我们证明了**附带正确性**：正确性信息可以跨模型迁移（66%的探针精度），但不会因果影响预测（在整个子空间消融协议中翻转率为1.5%至5.5%），这表明共享表示编码了与任务相关的信息，但未将其部署（第3.3节 (https://arxiv.org/html/2605.23315#S3.SS3)）。这扩展了探针文献在单个模型内识别出的相关-因果差距 (Belinkov, 2022 (https://arxiv.org/html/2605.23315#bib.bib22); Vig et al., 2020 (https://arxiv.org/html/2605.23315#bib.bib19); Meng et al., 2022 (https://arxiv.org/html/2605.23315#bib.bib21)) 到跨模型设置：跨模型迁移探针 (Huang et al., 2025 (https://arxiv.org/html/2605.23315#bib.bib39)) 确认了共享编码，但我们的因果消融显示它并未被部署。

另外两个发现校准了范围：随机初始化的模型比训练后的模型具有更高的CKA，这表明观察到的趋同大多源于架构而非学习 (Fort et al., 2020 (https://arxiv.org/html/2605.23315#bib.bib44))，并且反转在基础（非指令微调）模型中更强烈地复制，排除了对齐训练作为其来源 (Tekin et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib42))。这些发现对集成设计、可解释性迁移和模型相似性评估具有直接的实际影响。

## 2 方法

### 2.1 模型与任务

我们研究了来自8个系列（1.5B至72B参数）的16个指令微调语言模型；完整列表见表格1 (https://arxiv.org/html/2605.23315#S2.T1)。这些模型在训练数据、分词器词汇表、位置编码和注意力机制上有所不同，而对齐过程的多样性（RLHF、RLAIF、监督微调）保持了训练配方的变异。为测试规模不变性，我们还使用两块A100 80GB GPU评估了LLaMA-3.1-70B和Qwen-2.5-72B。14个模型核心队列的准确率范围为24.5%至70.9%，而72B模型达到80.1%。

表格 1：本文评估的模型。准确率是模型在所有四个领域800个问题中正确回答的比例。系列涵盖8个不同的架构谱系，具有多样化的训练配方。
| 模型 | 系列 | 参数量 | 层数 | 准确率 (%) |
|------|------|--------|------|------------|
| Qwen-2.5-1.5B (Yang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib25)) | Qwen | 1.5B | 28 | 55.0 |
| SmolLM2-1.7B (Allal et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib34)) | SmolLM | 1.7B | 24 | 41.6 |
| Gemma-1-2B (Mesnard et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib26)) | Gemma | 2.0B | 18 | 24.5 |
| Gemma-2-2B (Rivière et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib27)) | Gemma | 2.6B | 26 | 64.8 |
| Qwen-2.5-3B (Yang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib25)) | Qwen | 3.0B | 36 | 56.4 |
| LLaMA-3.2-3B (Dubey et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib28)) | LLaMA | 3.2B | 28 | 63.6 |
| Phi-3.5-Mini (Abdin et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib32)) | Phi | 3.8B | 32 | 36.4 |
| Qwen-2.5-7B (Yang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib25)) | Qwen | 7.0B | 28 | 49.4 |
| Mistral-7B (Jiang et al., 2023 (https://arxiv.org/html/2605.23315#bib.bib29)) | Mistral | 7.0B | 32 | 63.1 |
| OLMo-2-7B (Team OLMo et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib31)) | OLMo | 7.0B | 32 | 27.9 |
| InternLM-2.5-7B (Cai et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib30)) | InternLM | 7.0B | 32 | 70.6 |
| Nemotron-8B (Adler et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib33)) | LLaMA | 8.0B | 32 | 35.4 |
| Gemma-2-9B (Rivière et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib27)) | Gemma | 9.0B | 42 | 70.9 |
| Qwen-2.5-14B (Yang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib25)) | Qwen | 14.0B | 40 | 51.0 |
| 规模验证模型 | | | | |
| LLaMA-3.1-70B (Dubey et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib28)) | LLaMA | 70.0B | 80 | 78.4 |
| Qwen-2.5-72B (Yang et al., 2024 (https://arxiv.org/html/2605.23315#bib.bib25)) | Qwen | 72.0B | 80 | 80.1 |

我们在800个推理问题（每个领域200个）上进行评估，这些问题选自GSM8K (Cobbe et al., 2021 (https://arxiv.org/html/2605.23315#bib.bib14))（多步数学）、ARC-Challenge (Clark et al., 2018 (https://arxiv.org/html/2605.23315#bib.bib15))（科学）、TruthfulQA (Lin et al., 2022 (https://arxiv.org/html/2605.23315#bib.bib16))（常见误解）和HellaSwag (Zellers et al., 2019 (https://arxiv.org/html/2605.23315#bib.bib17))（常识补全）。对于每个问题，我们记录每一层的隐藏状态激活以及每个模型是否产生正确回答。问题按难度分层：正确回答的模型数量（共14个），分为困难（0至4个）、中等（5至9个）和容易（10至14个）。

### 2.2 相似性度量和分层

我们的主要度量是线性中心核对齐 (CKA) (Kornblith et al., 2019 (https://arxiv.org/html/2605.23315#bib.bib2))，定义为 CKA(X,Y)=‖Y⊤X‖F²/(‖X⊤X‖F·‖Y⊤Y‖F)，其中表示矩阵 X∈R^{n×p} 和 Y∈R^{n×q}。CKA对正交变换和各向同性缩放具有不变性，因此适合比较具有不同维度的架构之间的表示。我们在最后一层输入标记位置的中心化激活上计算CKA。作为拓扑补充，我们报告互最近邻 (MNN) 重叠 (k=5)，并使用奇异向量典型相关分析 (SVCCA) (Raghu et al., 2017 (https://arxiv.org/html/2605.23315#bib.bib8)) 进行验证（见附录 B (https://arxiv.org/html/2605.23315#A2)）。所有CKA值均为 (14 choose 2)=91 个模型对的平均值，带有95%自举置信区间（1000次重采样）；关键比较通过置换检验在 p<0.001 下显著。

我们按问题难度（正确回答的模型数量）和计算阶段进行分层。遵循 Geva 等人 (2023 (https://arxiv.org/html/2605.23315#bib.bib4))，我们根据正确性探针首次超过随机准确率的层，将每个模型的层分为决策前和决策后阶段，并分别计算两个阶段的CKA。

### 2.3 迁移探针与因果消融

为了检验正确性信息是否跨模型共享，我们训练一个线性探针（逻辑回归，L2正则化，λ=0.01），使用一个模型的中间表示来预测该模型的正确性，然后在第二个模型的表示上评估该探针，以预测第二个模型的正确性。我们报告所有有序模型对 (A,B)（A≠B）的平均迁移准确率，并附带通过排列正确性标签计算的基线。

为了检验共享的正确性信息是否被因果部署，我们识别出对正确性最具预测性的表示子空间（探针权重矩阵的主成分），并通过将激活投影到正交补集上进行消融。我们测量翻转率：消融后预测发生改变的比例。高翻转率表示因果必要性；低翻转率表示附带性。为了测试因果效应是局部的还是分布的，我们还通过将每个头部在每模型三个层深度的输出置零来消融单个注意力头部，在30个正确问题上测量每个头部的翻转率。

无理解的趋同：语言模型表征一致但推理分歧

相似文章

大规模推理模型（尚）不是多语言潜在推理器

世界模型与语言模型相遇：论具体推理与抽象推理的互补性

更多推理，更低准确性？论视觉语言模型中推理的双重性

推理模型并非只是思考更久，其运作轨迹也不同

大型语言模型中的数学推理：基准、架构、评估与开放挑战

提交意见反馈