@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

X AI KOLs Timeline 论文

摘要

DeepSeek 发表了一篇论文,介绍了 mHC(流形约束超连接,Manifold-Constrained Hyper-Connections),这是一种对 Transformer 架构的根本性重写,通过用数学约束的多流路径替换标准残差连接,来稳定大型模型。

DeepSeek 对 Transformer 架构进行了根本性的重构。它解决了导致大规模 AI 模型崩溃的“身份危机”。在过去的十年里,每个主要的 AI 模型都依赖于残差连接(Residual Connections)。可以将其想象为一条快速通道,允许信息跳过层级以保持信号纯净。如果没有它们,深度网络会字面意义上“忘记”自己在做什么,从而变得无法训练。但这里存在一个问题:随着我们构建更大、更深的模型,这些简单的“跳过路径”已经不再足够。信息被稀释。梯度爆炸。数学模型失效。DeepSeek(包括创始人李文峰在内的研究人员)刚刚发布了一篇论文,介绍了 mHC:流形约束超连接(Manifold-Constrained Hyper-Connections)。这是对 AI 内部数据流动方式的彻底改造。他们不再使用单一的“跳过车道”,而是将高速公路拓宽为多条并行流。他们称之为超连接(Hyper-Connections)。但他们并未止步于此。当存在多条流时,它们通常会陷入混乱。AI 会失去其“恒等映射(identity mapping)”——它不再能够在不扭曲信息的情况下将信息向前传递。DeepSeek 的突破在于强制这些连接存在于特定的数学“流形”上。通过将连接投影到 Birkhoff 多面体(使用 Sinkhorn-Knopp 算法),他们强制 AI 保持稳定。它保留了多路径的丰富性,同时确保信号永远不会丢失或溢出。结果令人震惊: 稳定性:它成功训练了一个包含 270 亿参数的模型,该模型之前无法通过标准超连接来稳定。 性能:它在代码、数学和推理基准测试(BBH 和 DROP)中大幅超越了基线模型。 效率:尽管结构复杂,他们设计了自定义内核,仅增加了约 6.7% 的训练开销。 过去几年,我们一直试图通过扩大模型规模来提升智能。DeepSeek 刚刚证明,真正的收益来自于修复底层架构。扩展的未来不仅仅在于更多的层数。更在于层之间更好的连接方式。
查看原文

相似文章

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。