@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

X AI KOLs Timeline 2026/05/09 11:06 论文

摘要

DeepSeek 发表了一篇论文，介绍了 mHC（流形约束超连接，Manifold-Constrained Hyper-Connections），这是一种对 Transformer 架构的根本性重写，通过用数学约束的多流路径替换标准残差连接，来稳定大型模型。

DeepSeek 对 Transformer 架构进行了根本性的重构。它解决了导致大规模 AI 模型崩溃的“身份危机”。在过去的十年里，每个主要的 AI 模型都依赖于残差连接（Residual Connections）。可以将其想象为一条快速通道，允许信息跳过层级以保持信号纯净。如果没有它们，深度网络会字面意义上“忘记”自己在做什么，从而变得无法训练。但这里存在一个问题：随着我们构建更大、更深的模型，这些简单的“跳过路径”已经不再足够。信息被稀释。梯度爆炸。数学模型失效。DeepSeek（包括创始人李文峰在内的研究人员）刚刚发布了一篇论文，介绍了 mHC：流形约束超连接（Manifold-Constrained Hyper-Connections）。这是对 AI 内部数据流动方式的彻底改造。他们不再使用单一的“跳过车道”，而是将高速公路拓宽为多条并行流。他们称之为超连接（Hyper-Connections）。但他们并未止步于此。当存在多条流时，它们通常会陷入混乱。AI 会失去其“恒等映射（identity mapping）”——它不再能够在不扭曲信息的情况下将信息向前传递。DeepSeek 的突破在于强制这些连接存在于特定的数学“流形”上。通过将连接投影到 Birkhoff 多面体（使用 Sinkhorn-Knopp 算法），他们强制 AI 保持稳定。它保留了多路径的丰富性，同时确保信号永远不会丢失或溢出。结果令人震惊：稳定性：它成功训练了一个包含 270 亿参数的模型，该模型之前无法通过标准超连接来稳定。性能：它在代码、数学和推理基准测试（BBH 和 DROP）中大幅超越了基线模型。效率：尽管结构复杂，他们设计了自定义内核，仅增加了约 6.7% 的训练开销。过去几年，我们一直试图通过扩大模型规模来提升智能。DeepSeek 刚刚证明，真正的收益来自于修复底层架构。扩展的未来不仅仅在于更多的层数。更在于层之间更好的连接方式。

查看原文

@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

相似文章

DeepSeek-V4：百万Token上下文，真正可供智能体使用

deepseek-ai/DeepSeek-V4-Pro

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

用于守恒律的稳健基础模型：通过循环视觉转换器将上下文注入通量神经算子

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

提交意见反馈