Transformer线性表示高度结构化的世界模型

arXiv cs.LG 论文

摘要

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。

arXiv:2605.18847v1 Announce Type: new 摘要:Transformer在序列推理轨迹上训练时,是否会构建底层任务的内部模型?如果是,这些内部表示的结构是否反映了领域结构?我们训练了一个8层Transformer在数独求解轨迹上,并对其内部计算进行了机制分析。我们得出两个结果。首先,模型构建了一个子结构世界模型:它不像人类分析者预期的那样逐格表示棋盘状态,而是围绕数独约束作用的行、列和宫组织信息。其次,我们识别出一个裸单电路:最后一个MLP层中一小群专用神经元,每个神经元独立检测某个单元格是否只剩下一个可能数字,并可靠地提升该数字。这些发现表明,涌现世界模型的几何形状由领域的约束代数塑造,而非其表面呈现,并且由此产生的决策电路是稀疏、单语义且完全可解释的。更广泛地说,它们证明了机制可解释性工具可以恢复Transformer如何解决组合推理任务的端到端算法描述。
查看原文

相似文章

迈向可验证Transformer:求解器可验证的电路解释

arXiv cs.LG

本文介绍了可验证Transformer(Verifiable Transformers),这是一个将任务局部化的Transformer电路转换为有界的、求解器可验证的声明框架,从而能够对功能等价性、边必要性及鲁棒性等属性进行形式化验证。

Transformers 本质上是简洁的

Hacker News Top

本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。

Transformer中隐式演绎推理的缩放特性

Hugging Face Daily Papers

本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。