Transformer线性表示高度结构化的世界模型

arXiv cs.LG 2026/05/20 04:00 论文

摘要

本文证明，在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型，并识别出一个稀疏、单语义的电路，负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。

arXiv:2605.18847v1 Announce Type: new 摘要：Transformer在序列推理轨迹上训练时，是否会构建底层任务的内部模型？如果是，这些内部表示的结构是否反映了领域结构？我们训练了一个8层Transformer在数独求解轨迹上，并对其内部计算进行了机制分析。我们得出两个结果。首先，模型构建了一个子结构世界模型：它不像人类分析者预期的那样逐格表示棋盘状态，而是围绕数独约束作用的行、列和宫组织信息。其次，我们识别出一个裸单电路：最后一个MLP层中一小群专用神经元，每个神经元独立检测某个单元格是否只剩下一个可能数字，并可靠地提升该数字。这些发现表明，涌现世界模型的几何形状由领域的约束代数塑造，而非其表面呈现，并且由此产生的决策电路是稀疏、单语义且完全可解释的。更广泛地说，它们证明了机制可解释性工具可以恢复Transformer如何解决组合推理任务的端到端算法描述。

查看原文

Transformer线性表示高度结构化的世界模型

相似文章

迈向可验证Transformer：求解器可验证的电路解释

CSP-Atlas: 稀疏Python Transformer中的概念特异性神经回路

Transformers 本质上是简洁的

Transformer中隐式演绎推理的缩放特性

训练基于Transformer的国际象棋模型以模仿人类下棋（包括思考时间）[P]

提交意见反馈