@che_shr_cat: 1/ 标准Transformer有一个根本的拓扑缺陷:它们无法在不耗尽层数的情况下随时间跟踪动态状态…

X AI KOLs Timeline 论文

摘要

这个帖子认为,标准Transformer存在一个拓扑缺陷:一旦状态表示到达顶层,它们就无法随时间更新信念,随着层数增加导致崩溃。

1/ 标准Transformer有一个根本的拓扑缺陷:它们无法在不耗尽层数的情况下随时间跟踪动态状态。 一旦状态表示到达前馈栈的顶层,模型更新其信念的能力就会崩溃。🧵 https://t.co/yom8n0LDnI
查看原文
查看缓存全文

缓存时间: 2026/06/15 23:10

1/ 标准Transformer存在一个根本性的拓扑缺陷:它们无法在层数耗尽的情况下随时间追踪动态状态。

一旦状态表示到达前馈堆栈的顶层,模型更新其信念的能力就会崩溃。

2/ 这是Michael C. Mozer、Shoaib Ahmed Siddiqui和Rosanne Liu在《Transformer的拓扑困境》一文中的核心论点。

他们揭示了纯前馈网络在拓扑上为何无法实现长期认知连贯性。

3/ 在标准解码器中,激活值严格向上流动。

如果模型在时间步T的第12层解析了一个复杂概念(如“river bank”),那么时间步T+1的早期层无法访问它。

模型必须从原始历史中重建状态,从而导致逻辑翻转。

4/ 设s_t = f(s_{t-1}, x_t)为动态状态转移。

对于复杂的序列任务,前馈网络必须逐步评估这一过程。这迫使深度与序列长度成线性增长。

形式化界限表明,仅识别语言就需要log n层。

5/ 作者提出了一种二维循环分类法来解决这一问题,依据以下维度对模型进行分类:

  1. 循环轴(深度 vs. 时间步)
  2. 输入令牌与循环步数之比

这将状态空间模型(时间步循环)与通用Transformer(深度循环)区分开来。

6/ 为什么不直接使用思维链(CoT)?

作者认为,显式思维链是一种计算上浪费的自动认知追踪变通方法。

通过生成令牌字符串来外部化状态会消耗过多内存。我们需要的是隐式、背景式的循环机制。

7/ 问题在于?并行化。

循环架构引入了顺序依赖,破坏了GPU友好的并行训练。

本文是一种概念性和分类学性的评论,意味着我们仍然需要实证扩展评估来证明这些权衡。

8/ 为了绕过这一问题,我们必须探索混合训练范式。

例如:多阶段训练(预训练为前馈,微调时加入循环连接)或粗粒度循环(在句子边界而非令牌边界进行更新)。

9/ 如果我们想要模型能够执行真正的多步推理,而不依赖庞大且昂贵的思维链序列,就必须修复拓扑结构。

仅靠前馈层无法实现稳健的长期认知连贯性。

10/ 阅读我的完整技术解析:https://arxiviq.substack.com/p/the-topological-trouble-with-transformers…

论文:https://arxiv.org/abs/2604.17121

你怎么看?Mamba这类状态空间模型会完全取代传统自注意力机制,还是我们会找到一种混合解决方案?来讨论吧。

#机器学习

11/ 下方是架构分类法的视觉总结。

相似文章