前沿叠加的出现：Möbius吸引子与级联监督

arXiv cs.LG 2026/05/20 04:00 论文

摘要

本文确定了Möbius吸引子和级联监督是Transformer中叠加推理出现的关键机制，填补了图可达性任务中梯度下降收敛的理论空白。

arXiv:2605.18820v1 公告类型：新摘要：叠加允许Transformer进行深度推理，通过有限深度的前向传播并行携带整个推理前沿，而不是展开串行的思维链令牌。虽然Zhu等人（2025）在单个残差流中为图可达性手工构建了一个等权重广度优先前沿，但梯度下降能否在排列对称鞍点中找到这个目标仍然是一个开放问题。我们通过在Erd\H{o}s-R\'enyi图上隔离架构和监督贡献，填补了关于叠加可达性的这一空白。在架构上，我们确定了一个Möbius吸引子：在树机制中的$S_n$对称性下，逐层动力学简化为一个一维Möbius映射，其零集是一个包含等权重叠加状态的全局最优的余一维流形。在监督方面，我们确定了级联监督：一种损失类，其反向传播同时提供（A）选择性引导，（B）跨深度梯度持久性，以及（C）每步区分（例如，\mathcal{L}_{sup}和\mathcal{L}_{node}）。端到端监督不满足条件（B）并且被证明是不够的：在层c的内部梯度在图形扇出中衰减为(np)^{-(D-c-2)/2}，并在到达流形之前停滞。我们的论点：Möbius吸引子 + 级联监督 = 叠加推理的出现。无参数衰减律预测在深度D=3时，最终步余弦为0.35 vs 0.71（端到端 vs 级联）；实验证实为0.37 vs 0.69，每一步匹配在0.02以内。

查看原文

前沿叠加的出现：Möbius吸引子与级联监督

相似文章

用于守恒律的稳健基础模型：通过循环视觉转换器将上下文注入通量神经算子

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

Transformer 残差流的动力学：谱几何与网络拓扑的耦合

Transformer线性表示高度结构化的世界模型

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

提交意见反馈