关于次二次架构:从应用到原理
摘要
本文在复杂序列建模任务上比较了 xLSTM、Mamba-2 和 Gated DeltaNet,发现 xLSTM 因其增强的状态追踪和记忆动态而更优,并在合成长度泛化任务上得到验证。
查看缓存全文
缓存时间: 2026/06/11 13:36
Paper page - On Subquadratic Architectures: From Applications to Principles
来源:https://huggingface.co/papers/2606.12364
摘要
xLSTM 在序列建模任务中表现出优于 Mamba-2 和 Gated DeltaNet 的性能,这得益于其增强的状态跟踪和记忆动态。
Transformer(https://huggingface.co/papers?q=Transformers)主导着现代序列建模(https://huggingface.co/papers?q=sequence%20modeling),但其二次注意力(https://huggingface.co/papers?q=attention)带来了巨大的计算成本。次二次架构(https://huggingface.co/papers?q=Subquadratic%20architectures)提供了一种可扩展的替代方案。然而,哪些设计能产生最有效的序列模型仍不清楚。我们比较了三种领先的方法:xLSTM(https://huggingface.co/papers?q=xLSTM)、Mamba-2(https://huggingface.co/papers?q=Mamba-2)和 Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)。我们在具有复杂依赖关系的任务上评估这些模型:(1) 代码模型预训练(https://huggingface.co/papers?q=code-model%20pre-training),(2) 从大型语言模型中蒸馏(https://huggingface.co/papers?q=distillation)代码模型,以及 (3) 时间序列基础模型(https://huggingface.co/papers?q=time-series%20foundation%20models)的预训练。在这些设置中,xLSTM(https://huggingface.co/papers?q=xLSTM)提供了最强的整体性能。为了解释 xLSTM(https://huggingface.co/papers?q=xLSTM)的优势,我们提出了一个统一的公式并分析了底层的架构机制,重点关注状态跟踪(https://huggingface.co/papers?q=state%20tracking)和记忆动态(https://huggingface.co/papers?q=memory%20dynamics)。我们的结果表明,xLSTM(https://huggingface.co/papers?q=xLSTM)通过其门控方案(https://huggingface.co/papers?q=gating%20scheme)实现了更灵活和稳定的记忆校正。我们在受控的合成长度泛化任务(https://huggingface.co/papers?q=length-generalization%20tasks)上验证了这些发现。总体而言,我们的发现表明,xLSTM(https://huggingface.co/papers?q=xLSTM)在复杂任务上的性能提升源于其稳健的状态跟踪(https://huggingface.co/papers?q=state%20tracking)和积累。
查看 arXiv 页面(https://arxiv.org/abs/2606.12364)查看 PDF(https://arxiv.org/pdf/2606.12364)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12364)
在您的代理中获取此论文:
hf papers read 2606\.12364
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。
引用此论文的数据集 0
暂无数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。
引用此论文的 Space 0
暂无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。
包含此论文的合集 1
相似文章
解锁门控Delta网络在大规模训练中的特征学习能力
本文推导了门控Delta网络的μP(最大更新参数化)缩放规则,实现了跨模型宽度的零样本超参数迁移,从而高效支持亚二次方复杂度的大语言模型架构。实验表明,在AdamW和SGD优化器下,该方法均能实现稳定的学习率迁移,而标准参数化方案则无法做到这一点。
@BlinkDL_AI:Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见
Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
@jiqizhixin: NVIDIA 新成果!你可以在不扰乱模型已有知识的前提下编辑其压缩记忆!推出 Gated DeltaNe…
NVIDIA 推出 Gated DeltaNet-2,一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法,使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。
RNNs vs Transformers vs SSMs:面向持续学习场景下AI记忆应存放于何处?
一篇比较RNNs、Transformers和SSMs中记忆设计的技术分析,主张关键问题在于序列状态应存储于何处,而非哪种架构更优。讨论了压缩隐状态、增长的KV缓存以及模型连接中类突触记忆之间的权衡。