前沿叠加的出现:Möbius吸引子与级联监督
摘要
本文确定了Möbius吸引子和级联监督是Transformer中叠加推理出现的关键机制,填补了图可达性任务中梯度下降收敛的理论空白。
arXiv:2605.18820v1 公告类型:新
摘要:叠加允许Transformer进行深度推理,通过有限深度的前向传播并行携带整个推理前沿,而不是展开串行的思维链令牌。虽然Zhu等人(2025)在单个残差流中为图可达性手工构建了一个等权重广度优先前沿,但梯度下降能否在排列对称鞍点中找到这个目标仍然是一个开放问题。
我们通过在Erd\H{o}s-R\'enyi图上隔离架构和监督贡献,填补了关于叠加可达性的这一空白。在架构上,我们确定了一个Möbius吸引子:在树机制中的$S_n$对称性下,逐层动力学简化为一个一维Möbius映射,其零集是一个包含等权重叠加状态的全局最优的余一维流形。
在监督方面,我们确定了级联监督:一种损失类,其反向传播同时提供(A)选择性引导,(B)跨深度梯度持久性,以及(C)每步区分(例如,\mathcal{L}_{sup}和\mathcal{L}_{node})。端到端监督不满足条件(B)并且被证明是不够的:在层c的内部梯度在图形扇出中衰减为(np)^{-(D-c-2)/2},并在到达流形之前停滞。
我们的论点:Möbius吸引子 + 级联监督 = 叠加推理的出现。无参数衰减律预测在深度D=3时,最终步余弦为0.35 vs 0.71(端到端 vs 级联);实验证实为0.37 vs 0.69,每一步匹配在0.02以内。
相似文章
用于守恒律的稳健基础模型:通过循环视觉转换器将上下文注入通量神经算子
本文提出了一种新架构,将 Flux 神经算子与循环视觉转换器相结合,作为求解守恒律的基础模型。该模型在无需显式获取控制方程的情况下,在多种保守系统中展示了稳健的泛化能力和长期预测能力。
Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉
本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。
Transformer 残差流的动力学:谱几何与网络拓扑的耦合
本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。
Transformer线性表示高度结构化的世界模型
本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。
@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…
本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。