@ZhihuFrontier: 半年前，一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由……

X AI KOLs Timeline 2026/06/26 09:42 新闻

transformer architecture hybrid-models state-space-model sparse-routing latent-reasoning future-predictions

摘要

一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进，正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型：将线性复杂度的层用于背景上下文，注意力机制用于精确推理，再加上更细粒度的稀疏性和原生的System 2推理。

半年前，一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理。如今，随着Loop Engineering的推进，这一预测显得格外具有现实意义。让我们深入探讨。下一代Transformer架构会是什么样？来自知乎答主 CodeCrafter 的见解 Transformer远未结束。尽管挑战者众多，它仍在生产中占据主导地位。但我们五年后使用的Transformer，可能与最初的“Attention Is All You Need”设计大相径庭。它可能从纯注意力堆栈演变为一个庞大、稀疏、混合了状态空间模型（SSM）特征的混合架构。GPT-5和Claude 4.5等模型已显示出这一方向的早期迹象。在2023和2024年，学术界不断宣布“Transformer杀手”：Mamba、RWKV、RetNet等。但在实际生产中，Transformer仍是主要架构。为什么？生态。但这并不意味着Transformer没有变化。在长上下文场景中，纯注意力已昂贵得无法忍受。痛点一：KV缓存爆炸如果你用全注意力运行1M token的上下文，仅KV缓存就能耗尽一个H100集群。所以第一个大趋势很明确：线性化注意力和混合架构将成为常态。像Jamba这样的架构已经混合了Mamba/SSM层和Transformer层。逻辑很简单：SSM在推理时内存使用为O(1)，不需要庞大的KV缓存。但SSM也会遗忘。让它从2万词前回忆一个具体的名字，它可能会产生幻觉。注意力虽然昂贵，但能像精确查表一样工作。因此，未来可能是这样的：80%的低层使用改进版Mamba或RWKV等线性复杂度模型处理大量背景上下文，而20%的高层或关键层仍使用全注意力进行精确回忆和强推理。就像大脑：大多数时候，潜意识在后台运行。当出现难题时，专注推理接管。痛点二：密集计算不可持续 MoE在2024年成为主流。到2025年，任何没有MoE的实验室都已落后。但今天的MoE仍然粗糙。目前大多数MoE系统在token级别进行路由：一个token进来，选择两个专家。下一代将更加精细。稀疏性可能下放到神经元级别。未来的网络可能不再有FFN层和注意力层之间的明确界限。整个模型可能成为一个巨大的动态路由图。目标是使计算与参数数量和简单token数量解耦。简单的token可能几乎不经过计算就通过。困难的推理任务可能在输出前触发多个内部循环。简而言之：模型将学会偷懒。预测三：System 2成为原生 OpenAI的o1系列向行业展示了一件重要的事：推理时强化学习可以产生慢思考。今天的Transformer仍然主要是System 1模型。它通过统计反射预测下一个token。当前的System 2行为主要来自数据构建和推理工作流（如CoT），而非架构本身。五年内，类Transformer架构可能在架构层面支持System 2推理。当前的CoT很浪费。模型将其思考过程打印到上下文中，生成数千个中间token，消耗内存和解码时间。未来的架构可能在潜在状态空间内进行推理。它可以运行多个内部步骤，测试想法，回溯，在高维空间中自我修正，然后将最终结果映射回文本。这意味着Transformer可能长出类似工作记忆的东西。它将不再是纯前馈网络。它可能包含递归结构，不是用于序列处理，而是用于思考时间。这就是为什么Yann LeCun的JEPA思想值得关注。他对世界模型和潜在预测的关注可能被吸收到下一代Transformer系统中。预测四：原生多模态与以分词器为中心设计的终结到2025年，如果一个多模态模型仍然分别训练视觉编码器和文本解码器，然后用投影仪连接它们，那它已经过时了。目前大多数多模态模型是拼凑而成的。图像被分割成小块并转化为tokens，音频被切割成帧并转化为tokens。这造成了信息损失，因为连续信号被迫转为离散tokens。下一代可能不再依赖离散分词器。未来模型可能直接处理原始信号。这需要能够处理连续值输入的架构。它可能涉及扩散式理解、新的神经架构，或其他信号原生设计。到那时，文本将不再是中心。核心表示可能成为物理世界模型，文本只是输出接口之一。这是一个巨大的工程转变。像Megatron-LM和DeepSpeed这样的框架是为离散tokens优化的。超越它们意味着重建基础。但这是必要的。仅凭文本无法教会模型真正的物理规律。一个真实的教训：一个团队曾尝试用纯文本数据微调一个编码模型来控制机械臂。代码看起来很棒，但机械臂在现实世界中撞毁了。模型不理解重力或摩擦。在添加了直接传感器嵌入后，性能得到了提升。这就是为什么原生多模态不可避免。预测五：硬件将迫使架构改变讨论架构而不谈硬件是不完整的。 Transformer之所以胜出，部分原因是它与GPU完美契合。GPU喜欢矩阵乘法（MatMul），而Transformer充满了MatMul。但MatMul变得越来越昂贵，尤其是在能耗方面。未来的架构将试图减少对MatMul的绝对依赖。今天的BitNet和1-bit LLMs看起来还很早期，甚至像玩具。但它们指明了正确的方向：量化不应仅仅是部署技巧，而应成为架构设计的一部分。未来的类Transformer模型可能直接在INT4甚至INT1下训练。这意味着激活函数、归一化层、RMSNorm/LayerNorm可能都需要重新设计。当前的LayerNorm在极低精度下不稳定，容易导致梯度爆炸。通过存内计算（PIM），架构也可能变得更加本地化。今天的Transformer跨层移动整个隐藏状态，造成了严重的带宽瓶颈。未来的架构可能更像皮层：大部分本地计算，只有少数长距离连接。这与细粒度稀疏性和MoE相关联。因此核心观点很简单：Transformer不是终点，而是一个过渡状态。如果你从事算法工作，不要把整个技能树都放在调整Transformer超参数上。RoPE变体和注意力掩码技巧可能在几年内失去相关性。专注于更深层的基础： · 信息论与压缩：模型是压缩系统，困惑度仍然重要。 · 优化理论：SGD和AdamW已经统治太久了。稀疏架构可能需要更好的优化器。 · 数据工程：架构开源很快，但数据配方才是真正的护城河。也许我们不会再叫它“Transformer”。它可能成为一个通用状态机或神经推理引擎。但其灵魂将保留：通过梯度下降进行端到端学习。尽管有各种AGI炒作，今天的Transformer仍然是在拟合概率。它的“创造力”大多是对巨大样本空间的插值。要真正突破，下一代架构可能需要离散符号推理模块。这可能带来神经符号AI的回归。如果你现在有GPU，不要只跑SFT。尝试复现非Transformer架构。尝试将SSM插入Transformer。尝试用连续信号输入替换嵌入。许多看起来奇怪的想法o

查看原文

查看缓存全文

缓存时间: 2026/06/26 16:14

半年前，一位知乎答主曾预测，下一代Transformer将吸收循环、递归状态、稀疏路由和潜在推理。如今，随着循环工程（Loop Engineering）的兴起，这个预言显得尤为贴切。让我们深入探讨。

下一代Transformer架构会是什么样？ 来自知乎用户@CodeCrafter的洞察

Transformer远未过时。尽管挑战者众多，它仍在生产环境中占据主导地位。但五年后我们使用的Transformer，可能与最初的“Attention Is All You Need”设计大相径庭。它可能从一个纯注意力堆栈，演变成一个巨大、稀疏、混合了状态空间模型（SSM）特征的架构。像GPT-5和Claude 4.5这样的模型已经显示出这一方向的早期迹象。 2023和2024年，学术界不断宣布“Transformer杀手”：Mamba、RWKV、RetNet等等。但在实际生产中，Transformer仍是主流架构。原因何在？生态系统。但这并不意味着Transformer一成不变。在长上下文场景中，纯注意力已经昂贵到难以承受。

痛点1：KV缓存爆炸 如果用全注意力运行100万token的上下文，KV缓存本身就能耗尽一个H100集群。因此第一个大趋势很明显：线性注意力和混合架构将成为常态。像Jamba这样的架构已经将Mamba/SSM层与Transformer层混合。逻辑很简单：SSM在推理时内存占用为O(1)，不需要巨大的KV缓存。但SSM也会遗忘。让它从两万词前回忆一个具体名字，它可能会产生幻觉。注意力虽然昂贵，却像精确的查找表一样工作。因此未来可能的样子是：80%的低层使用改进的Mamba或RWKV等线性复杂度模型来处理大量背景上下文，而20%的高层或关键层仍使用全注意力进行精确回忆和强推理。这就像大脑：大部分时间，潜意识在后台运行。当难题出现时，专注推理接管。

痛点2：密集计算不可持续 MoE在2024年成为主流。到2025年，任何没有MoE的实验室看起来都已经落伍。但今天的MoE仍然粗糙。目前大多数MoE系统在token级别进行路由：一个token进来，选择两个专家。下一代将更加精细。稀疏性可能下放到神经元级别。未来的网络可能不再有明确的FFN层和注意力层界限。整个模型可能变成一个巨大的动态路由图。目标是将计算与参数数量和简单token数量解耦。简单的token可能几乎不经过计算就通过。困难的推理任务可能在输出前触发多个内部循环。简而言之：模型将学会偷懒。

预测3：系统2成为原生能力 OpenAI的o1系列向业界展示了一件重要的事：推理时的强化学习可以产生慢思考。今天的Transformer基本上还是系统1模型。它通过统计反射来预测下一个token。当前的系统2行为主要来自数据构建和推理流程（如思维链 CoT），而非来自架构本身。五年后，类Transformer模型可能在架构层面支持系统2推理。当前的CoT很浪费。模型将其思考过程打印到上下文中，生成数千个中间token，消耗内存和解码时间。未来的架构可能在潜在状态空间内进行推理。它可以在高维空间中运行多个内部步骤，测试想法，回溯，自我修正，然后将最终结果映射回文本。这意味着Transformer可能发展出类似工作记忆的东西。它将不再是纯粹的前馈网络。它可能包含递归结构，不是为了处理序列，而是为了思考时间。这就是为什么Yann LeCun的JEPA思路值得关注。他对世界模型和潜在预测的关注可能会被吸收到下一代Transformer系统中。

预测4：原生多模态与以Tokenizer为中心设计的终结 到2025年，如果一个多模态模型仍然训练独立的视觉编码器和文本解码器，然后用投影仪连接它们，这已经感觉过时了。目前大多数多模态模型是拼凑起来的。图像被分割成块并变成token。音频被切割成帧并变成token。这造成了信息丢失，因为连续信号被强制转换为离散token。下一代可能不再依赖离散的token化器。未来的模型可能直接处理原始信号。这需要能够处理连续值输入的架构。这可能涉及扩散式理解、新的神经架构，或其他信号原生的设计。到那时，文本将不再是中心。核心表示可能变成物理世界模型，而文本只是其中一个输出接口。这是一个巨大的工程转变。像Megatron-LM和DeepSpeed这样的框架是为离散token优化的。超越它们意味着重建基础。但这是必要的。仅靠文本无法教会模型真正的物理知识。一个真实的教训：一个团队曾尝试用纯文本数据微调一个编码模型来控制机械臂。代码看起来很棒，但机械臂在现实世界中撞毁了。模型不理解重力或摩擦力。在添加了直接传感器嵌入后，性能得到了提升。这就是为什么原生多模态是不可避免的。

预测5：硬件将迫使架构变革 不谈硬件的架构讨论是不完整的。 Transformer获胜部分原因是它完美适配GPU。GPU喜欢矩阵乘法（MatMul），而Transformer充满了MatMul。但MatMul越来越昂贵，尤其是在能耗方面。未来的架构将努力降低对MatMul的绝对依赖。今天的BitNet和1-bit LLM看起来还很早期，甚至像玩具。但它们揭示了正确的方向：量化不应该只是部署技巧。它应该是架构设计的一部分。未来的类Transformer模型可能直接在INT4甚至INT1精度下训练。这意味着激活函数、归一化层和RMSNorm/LayerNorm可能都需要重新设计。当前的LayerNorm在超低精度下不稳定，容易导致梯度爆炸。随着存内计算（PIM）的发展，架构也可能变得更加局部化。今天的Transformer在整个层之间移动完整的隐藏状态，造成了巨大的带宽瓶颈。未来的架构可能更像大脑皮层：主要是局部计算，只有少数长程连接。这又回到了细粒度稀疏性和MoE上。因此核心观点很简单：Transformer不是终点，它是一个过渡阶段。如果你从事算法工作，不要把你的整个技能树都放在调整Transformer超参数上。RoPE变体和注意力掩码技巧可能在几年内失去相关性。专注于更深的根基： · 信息论和压缩：模型是压缩系统，困惑度（perplexity）仍然重要。 · 优化理论：SGD和AdamW统治得太久了。稀疏架构可能需要更好的优化器。 · 数据工程：架构开源很快，但数据配方才是真正的护城河。也许我们将不再称之为“Transformer”。它可能变成一个通用状态机或神经推理引擎。但它的灵魂将保留：通过梯度下降进行端到端学习。即使有所有AGI炒作，今天的Transformer仍然是在拟合概率。它的“创造力”主要是在巨大样本空间中的插值。要真正取得突破，下一个架构可能需要离散符号推理模块。这可能会带来神经符号AI的回归。如果你今天有GPU，不要只跑SFT。尝试复现非Transformer架构。尝试将SSM插入Transformer。尝试用连续信号输入替换嵌入表示。许多今天看起来奇怪或弱小的想法，五年后可能成为教科书上的答案。这个领域发展迅速。当本文写就时，DeepSeek或OpenAI可能已经发表了一篇新论文，证明其中一半是错的。但这正是为什么对于建设者而言，这是一个如此激动人心的时代。保持好奇心。不要迷信权威。跑代码。把显存推到极限。观察loss曲线。未来正是在那里变得真实。

原文（中文）： https://zhihu.com/question/1904728228213548260/answer/1975169767355736614…

#Transformer #LoopEngineering #LLM #AIArchitecture #Mamba #MoE #SSM #AIAgents #MultimodalAI #AIResearch #MachineLearning #DeepLearning

相似文章

@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……

X AI KOLs Timeline

本文介绍了LoopCoder-v2，一个70亿参数的并行循环变换器系列，用于代码生成，并研究了最优循环次数，发现两个循环能带来显著提升，而更多循环则会导致性能下降。

@retr0sushi_: 循环transformer -> 超循环transformer -> 循环世界模型 ??

X AI KOLs Timeline

推测了从循环transformer到超循环transformer再到循环世界模型的演进，暗示了一个新的研究方向。

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline

本研究介绍了一种技术，通过使用阻尼Runge-Kutta子步骤，在推理时循环冻结的、现成的Transformer检查点，将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算，在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。

@FinanceYF5: 下一 token 预测是短视的。那如果 Transformer 学会预测自己的下一个隐状态呢？ Jayden Teoh提出 Next-Latent Prediction（NextLat）：一种自监督学习方法，教 Transformer 形…

X AI KOLs Following

Jayden Teoh提出Next-Latent Prediction（NextLat），一种自监督学习方法，教Transformer学习预测下一个隐状态，从而形成紧凑的世界模型，用于推理和规划，并通过自推测解码将推理速度提升3.3倍。

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

X AI KOLs Timeline

一篇深入探讨现代密集Transformer内部工作原理的博文，涵盖YaRN（位置信息）、混合注意力（实现160k上下文长度）、soft capping、QK归一化，以及Transformer数学（包括FLOPs/Token公式和集群规模估算）。

相似文章

@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……

@retr0sushi_: 循环transformer -> 超循环transformer -> 循环世界模型 ??

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

@FinanceYF5: 下一 token 预测是短视的。那如果 Transformer 学会预测自己的下一个隐状态呢？ Jayden Teoh提出 Next-Latent Prediction（NextLat）：一种自监督学习方法，教 Transformer 形…

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

提交意见反馈