@ZhihuFrontier: 半年前,一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由……

X AI KOLs Timeline 新闻

摘要

一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进,正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型:将线性复杂度的层用于背景上下文,注意力机制用于精确推理,再加上更细粒度的稀疏性和原生的System 2推理。

半年前,一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理。 如今,随着Loop Engineering的推进,这一预测显得格外具有现实意义。 让我们深入探讨。 下一代Transformer架构会是什么样? 来自知乎答主 CodeCrafter 的见解 Transformer远未结束。尽管挑战者众多,它仍在生产中占据主导地位。但我们五年后使用的Transformer,可能与最初的“Attention Is All You Need”设计大相径庭。 它可能从纯注意力堆栈演变为一个庞大、稀疏、混合了状态空间模型(SSM)特征的混合架构。GPT-5和Claude 4.5等模型已显示出这一方向的早期迹象。 在2023和2024年,学术界不断宣布“Transformer杀手”:Mamba、RWKV、RetNet等。但在实际生产中,Transformer仍是主要架构。 为什么?生态。 但这并不意味着Transformer没有变化。在长上下文场景中,纯注意力已昂贵得无法忍受。 痛点一:KV缓存爆炸 如果你用全注意力运行1M token的上下文,仅KV缓存就能耗尽一个H100集群。 所以第一个大趋势很明确:线性化注意力和混合架构将成为常态。 像Jamba这样的架构已经混合了Mamba/SSM层和Transformer层。逻辑很简单:SSM在推理时内存使用为O(1),不需要庞大的KV缓存。 但SSM也会遗忘。让它从2万词前回忆一个具体的名字,它可能会产生幻觉。注意力虽然昂贵,但能像精确查表一样工作。 因此,未来可能是这样的:80%的低层使用改进版Mamba或RWKV等线性复杂度模型处理大量背景上下文,而20%的高层或关键层仍使用全注意力进行精确回忆和强推理。 就像大脑:大多数时候,潜意识在后台运行。当出现难题时,专注推理接管。 痛点二:密集计算不可持续 MoE在2024年成为主流。到2025年,任何没有MoE的实验室都已落后。但今天的MoE仍然粗糙。 目前大多数MoE系统在token级别进行路由:一个token进来,选择两个专家。 下一代将更加精细。稀疏性可能下放到神经元级别。未来的网络可能不再有FFN层和注意力层之间的明确界限。整个模型可能成为一个巨大的动态路由图。 目标是使计算与参数数量和简单token数量解耦。 简单的token可能几乎不经过计算就通过。困难的推理任务可能在输出前触发多个内部循环。 简而言之:模型将学会偷懒。 预测三:System 2成为原生 OpenAI的o1系列向行业展示了一件重要的事:推理时强化学习可以产生慢思考。 今天的Transformer仍然主要是System 1模型。它通过统计反射预测下一个token。当前的System 2行为主要来自数据构建和推理工作流(如CoT),而非架构本身。 五年内,类Transformer架构可能在架构层面支持System 2推理。 当前的CoT很浪费。模型将其思考过程打印到上下文中,生成数千个中间token,消耗内存和解码时间。 未来的架构可能在潜在状态空间内进行推理。它可以运行多个内部步骤,测试想法,回溯,在高维空间中自我修正,然后将最终结果映射回文本。 这意味着Transformer可能长出类似工作记忆的东西。它将不再是纯前馈网络。它可能包含递归结构,不是用于序列处理,而是用于思考时间。 这就是为什么Yann LeCun的JEPA思想值得关注。他对世界模型和潜在预测的关注可能被吸收到下一代Transformer系统中。 预测四:原生多模态与以分词器为中心设计的终结 到2025年,如果一个多模态模型仍然分别训练视觉编码器和文本解码器,然后用投影仪连接它们,那它已经过时了。 目前大多数多模态模型是拼凑而成的。图像被分割成小块并转化为tokens,音频被切割成帧并转化为tokens。这造成了信息损失,因为连续信号被迫转为离散tokens。 下一代可能不再依赖离散分词器。 未来模型可能直接处理原始信号。这需要能够处理连续值输入的架构。它可能涉及扩散式理解、新的神经架构,或其他信号原生设计。 到那时,文本将不再是中心。核心表示可能成为物理世界模型,文本只是输出接口之一。 这是一个巨大的工程转变。像Megatron-LM和DeepSpeed这样的框架是为离散tokens优化的。超越它们意味着重建基础。 但这是必要的。仅凭文本无法教会模型真正的物理规律。 一个真实的教训:一个团队曾尝试用纯文本数据微调一个编码模型来控制机械臂。代码看起来很棒,但机械臂在现实世界中撞毁了。模型不理解重力或摩擦。在添加了直接传感器嵌入后,性能得到了提升。 这就是为什么原生多模态不可避免。 预测五:硬件将迫使架构改变 讨论架构而不谈硬件是不完整的。 Transformer之所以胜出,部分原因是它与GPU完美契合。GPU喜欢矩阵乘法(MatMul),而Transformer充满了MatMul。 但MatMul变得越来越昂贵,尤其是在能耗方面。 未来的架构将试图减少对MatMul的绝对依赖。 今天的BitNet和1-bit LLMs看起来还很早期,甚至像玩具。但它们指明了正确的方向:量化不应仅仅是部署技巧,而应成为架构设计的一部分。 未来的类Transformer模型可能直接在INT4甚至INT1下训练。这意味着激活函数、归一化层、RMSNorm/LayerNorm可能都需要重新设计。当前的LayerNorm在极低精度下不稳定,容易导致梯度爆炸。 通过存内计算(PIM),架构也可能变得更加本地化。今天的Transformer跨层移动整个隐藏状态,造成了严重的带宽瓶颈。未来的架构可能更像皮层:大部分本地计算,只有少数长距离连接。 这与细粒度稀疏性和MoE相关联。 因此核心观点很简单:Transformer不是终点,而是一个过渡状态。 如果你从事算法工作,不要把整个技能树都放在调整Transformer超参数上。RoPE变体和注意力掩码技巧可能在几年内失去相关性。 专注于更深层的基础: · 信息论与压缩:模型是压缩系统,困惑度仍然重要。 · 优化理论:SGD和AdamW已经统治太久了。稀疏架构可能需要更好的优化器。 · 数据工程:架构开源很快,但数据配方才是真正的护城河。 也许我们不会再叫它“Transformer”。它可能成为一个通用状态机或神经推理引擎。但其灵魂将保留:通过梯度下降进行端到端学习。 尽管有各种AGI炒作,今天的Transformer仍然是在拟合概率。它的“创造力”大多是对巨大样本空间的插值。 要真正突破,下一代架构可能需要离散符号推理模块。这可能带来神经符号AI的回归。 如果你现在有GPU,不要只跑SFT。尝试复现非Transformer架构。尝试将SSM插入Transformer。尝试用连续信号输入替换嵌入。 许多看起来奇怪的想法o
查看原文
查看缓存全文

缓存时间: 2026/06/26 16:14

半年前,一位知乎答主曾预测,下一代Transformer将吸收循环、递归状态、稀疏路由和潜在推理。 如今,随着循环工程(Loop Engineering)的兴起,这个预言显得尤为贴切。 让我们深入探讨。

下一代Transformer架构会是什么样? 来自知乎用户@CodeCrafter的洞察

Transformer远未过时。尽管挑战者众多,它仍在生产环境中占据主导地位。但五年后我们使用的Transformer,可能与最初的“Attention Is All You Need”设计大相径庭。 它可能从一个纯注意力堆栈,演变成一个巨大、稀疏、混合了状态空间模型(SSM)特征的架构。像GPT-5和Claude 4.5这样的模型已经显示出这一方向的早期迹象。 2023和2024年,学术界不断宣布“Transformer杀手”:Mamba、RWKV、RetNet等等。但在实际生产中,Transformer仍是主流架构。 原因何在?生态系统。 但这并不意味着Transformer一成不变。在长上下文场景中,纯注意力已经昂贵到难以承受。

痛点1:KV缓存爆炸 如果用全注意力运行100万token的上下文,KV缓存本身就能耗尽一个H100集群。 因此第一个大趋势很明显:线性注意力和混合架构将成为常态。 像Jamba这样的架构已经将Mamba/SSM层与Transformer层混合。逻辑很简单:SSM在推理时内存占用为O(1),不需要巨大的KV缓存。 但SSM也会遗忘。让它从两万词前回忆一个具体名字,它可能会产生幻觉。注意力虽然昂贵,却像精确的查找表一样工作。 因此未来可能的样子是:80%的低层使用改进的Mamba或RWKV等线性复杂度模型来处理大量背景上下文,而20%的高层或关键层仍使用全注意力进行精确回忆和强推理。 这就像大脑:大部分时间,潜意识在后台运行。当难题出现时,专注推理接管。

痛点2:密集计算不可持续 MoE在2024年成为主流。到2025年,任何没有MoE的实验室看起来都已经落伍。但今天的MoE仍然粗糙。 目前大多数MoE系统在token级别进行路由:一个token进来,选择两个专家。 下一代将更加精细。稀疏性可能下放到神经元级别。未来的网络可能不再有明确的FFN层和注意力层界限。整个模型可能变成一个巨大的动态路由图。 目标是将计算与参数数量和简单token数量解耦。 简单的token可能几乎不经过计算就通过。困难的推理任务可能在输出前触发多个内部循环。 简而言之:模型将学会偷懒。

预测3:系统2成为原生能力 OpenAI的o1系列向业界展示了一件重要的事:推理时的强化学习可以产生慢思考。 今天的Transformer基本上还是系统1模型。它通过统计反射来预测下一个token。当前的系统2行为主要来自数据构建和推理流程(如思维链 CoT),而非来自架构本身。 五年后,类Transformer模型可能在架构层面支持系统2推理。 当前的CoT很浪费。模型将其思考过程打印到上下文中,生成数千个中间token,消耗内存和解码时间。 未来的架构可能在潜在状态空间内进行推理。它可以在高维空间中运行多个内部步骤,测试想法,回溯,自我修正,然后将最终结果映射回文本。 这意味着Transformer可能发展出类似工作记忆的东西。它将不再是纯粹的前馈网络。它可能包含递归结构,不是为了处理序列,而是为了思考时间。 这就是为什么Yann LeCun的JEPA思路值得关注。他对世界模型和潜在预测的关注可能会被吸收到下一代Transformer系统中。

预测4:原生多模态与以Tokenizer为中心设计的终结 到2025年,如果一个多模态模型仍然训练独立的视觉编码器和文本解码器,然后用投影仪连接它们,这已经感觉过时了。 目前大多数多模态模型是拼凑起来的。图像被分割成块并变成token。音频被切割成帧并变成token。这造成了信息丢失,因为连续信号被强制转换为离散token。 下一代可能不再依赖离散的token化器。 未来的模型可能直接处理原始信号。这需要能够处理连续值输入的架构。这可能涉及扩散式理解、新的神经架构,或其他信号原生的设计。 到那时,文本将不再是中心。核心表示可能变成物理世界模型,而文本只是其中一个输出接口。 这是一个巨大的工程转变。像Megatron-LM和DeepSpeed这样的框架是为离散token优化的。超越它们意味着重建基础。 但这是必要的。仅靠文本无法教会模型真正的物理知识。 一个真实的教训:一个团队曾尝试用纯文本数据微调一个编码模型来控制机械臂。代码看起来很棒,但机械臂在现实世界中撞毁了。模型不理解重力或摩擦力。在添加了直接传感器嵌入后,性能得到了提升。 这就是为什么原生多模态是不可避免的。

预测5:硬件将迫使架构变革 不谈硬件的架构讨论是不完整的。 Transformer获胜部分原因是它完美适配GPU。GPU喜欢矩阵乘法(MatMul),而Transformer充满了MatMul。 但MatMul越来越昂贵,尤其是在能耗方面。 未来的架构将努力降低对MatMul的绝对依赖。 今天的BitNet和1-bit LLM看起来还很早期,甚至像玩具。但它们揭示了正确的方向:量化不应该只是部署技巧。它应该是架构设计的一部分。 未来的类Transformer模型可能直接在INT4甚至INT1精度下训练。这意味着激活函数、归一化层和RMSNorm/LayerNorm可能都需要重新设计。当前的LayerNorm在超低精度下不稳定,容易导致梯度爆炸。 随着存内计算(PIM)的发展,架构也可能变得更加局部化。今天的Transformer在整个层之间移动完整的隐藏状态,造成了巨大的带宽瓶颈。未来的架构可能更像大脑皮层:主要是局部计算,只有少数长程连接。 这又回到了细粒度稀疏性和MoE上。 因此核心观点很简单:Transformer不是终点,它是一个过渡阶段。 如果你从事算法工作,不要把你的整个技能树都放在调整Transformer超参数上。RoPE变体和注意力掩码技巧可能在几年内失去相关性。 专注于更深的根基: · 信息论和压缩:模型是压缩系统,困惑度(perplexity)仍然重要。 · 优化理论:SGD和AdamW统治得太久了。稀疏架构可能需要更好的优化器。 · 数据工程:架构开源很快,但数据配方才是真正的护城河。 也许我们将不再称之为“Transformer”。它可能变成一个通用状态机或神经推理引擎。但它的灵魂将保留:通过梯度下降进行端到端学习。 即使有所有AGI炒作,今天的Transformer仍然是在拟合概率。它的“创造力”主要是在巨大样本空间中的插值。 要真正取得突破,下一个架构可能需要离散符号推理模块。这可能会带来神经符号AI的回归。 如果你今天有GPU,不要只跑SFT。尝试复现非Transformer架构。尝试将SSM插入Transformer。尝试用连续信号输入替换嵌入表示。 许多今天看起来奇怪或弱小的想法,五年后可能成为教科书上的答案。 这个领域发展迅速。当本文写就时,DeepSeek或OpenAI可能已经发表了一篇新论文,证明其中一半是错的。但这正是为什么对于建设者而言,这是一个如此激动人心的时代。 保持好奇心。不要迷信权威。跑代码。把显存推到极限。观察loss曲线。未来正是在那里变得真实。

原文(中文): https://zhihu.com/question/1904728228213548260/answer/1975169767355736614…

#Transformer #LoopEngineering #LLM #AIArchitecture #Mamba #MoE #SSM #AIAgents #MultimodalAI #AIResearch #MachineLearning #DeepLearning

相似文章

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline

本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。