关于次二次架构：从应用到原理

Hugging Face Daily Papers 2026/06/10 17:33 论文

subquadratic-architectures xlstm mamba-2 gated-deltanet sequence-modeling state-tracking memory-dynamics

摘要

本文在复杂序列建模任务上比较了 xLSTM、Mamba-2 和 Gated DeltaNet，发现 xLSTM 因其增强的状态追踪和记忆动态而更优，并在合成长度泛化任务上得到验证。

Transformer 主导着现代序列建模，但它们的二次注意力机制带来了巨大的计算成本。次二次架构提供了一种可扩展的替代方案。然而，目前尚不清楚哪种设计能产生最有效的序列模型。我们比较了三种领先方法：xLSTM、Mamba-2 和 Gated DeltaNet。我们在具有复杂依赖关系的任务上评估这些模型：(1) 代码模型预训练，(2) 从大语言模型中蒸馏代码模型，(3) 时序基础模型的预训练。在这些设置中，xLSTM 展现了最强的整体性能。为了解释 xLSTM 的优势，我们提出了一种统一的公式，并分析了底层的架构机制，重点关注状态追踪和记忆动态。我们的结果表明，xLSTM 通过其门控机制实现了更灵活和稳定的记忆修正。我们在受控的合成长度泛化任务上验证了这些发现。总体而言，我们的发现表明 xLSTM 在复杂任务上的收益来源于稳健的状态追踪和累积。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:36

Paper page - On Subquadratic Architectures: From Applications to Principles

来源：https://huggingface.co/papers/2606.12364

摘要

xLSTM 在序列建模任务中表现出优于 Mamba-2 和 Gated DeltaNet 的性能，这得益于其增强的状态跟踪和记忆动态。

Transformer（https://huggingface.co/papers?q=Transformers）主导着现代序列建模（https://huggingface.co/papers?q=sequence%20modeling），但其二次注意力（https://huggingface.co/papers?q=attention）带来了巨大的计算成本。次二次架构（https://huggingface.co/papers?q=Subquadratic%20architectures）提供了一种可扩展的替代方案。然而，哪些设计能产生最有效的序列模型仍不清楚。我们比较了三种领先的方法：xLSTM（https://huggingface.co/papers?q=xLSTM）、Mamba-2（https://huggingface.co/papers?q=Mamba-2）和 Gated DeltaNet（https://huggingface.co/papers?q=Gated%20DeltaNet）。我们在具有复杂依赖关系的任务上评估这些模型：(1) 代码模型预训练（https://huggingface.co/papers?q=code-model%20pre-training），(2) 从大型语言模型中蒸馏（https://huggingface.co/papers?q=distillation）代码模型，以及 (3) 时间序列基础模型（https://huggingface.co/papers?q=time-series%20foundation%20models）的预训练。在这些设置中，xLSTM（https://huggingface.co/papers?q=xLSTM）提供了最强的整体性能。为了解释 xLSTM（https://huggingface.co/papers?q=xLSTM）的优势，我们提出了一个统一的公式并分析了底层的架构机制，重点关注状态跟踪（https://huggingface.co/papers?q=state%20tracking）和记忆动态（https://huggingface.co/papers?q=memory%20dynamics）。我们的结果表明，xLSTM（https://huggingface.co/papers?q=xLSTM）通过其门控方案（https://huggingface.co/papers?q=gating%20scheme）实现了更灵活和稳定的记忆校正。我们在受控的合成长度泛化任务（https://huggingface.co/papers?q=length-generalization%20tasks）上验证了这些发现。总体而言，我们的发现表明，xLSTM（https://huggingface.co/papers?q=xLSTM）在复杂任务上的性能提升源于其稳健的状态跟踪（https://huggingface.co/papers?q=state%20tracking）和积累。

查看 arXiv 页面（https://arxiv.org/abs/2606.12364）查看 PDF（https://arxiv.org/pdf/2606.12364）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.12364）

在您的代理中获取此论文：

hf papers read 2606\.12364

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。

引用此论文的数据集 0

暂无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。

引用此论文的 Space 0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。

关于次二次架构：从应用到原理

Paper page - On Subquadratic Architectures: From Applications to Principles

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的合集 1

相似文章

解锁门控Delta网络在大规模训练中的特征学习能力

@BlinkDL_AI：Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环，却对房间里的大象视而不见

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

@jiqizhixin: NVIDIA 新成果！你可以在不扰乱模型已有知识的前提下编辑其压缩记忆！推出 Gated DeltaNe…

RNNs vs Transformers vs SSMs：面向持续学习场景下AI记忆应存放于何处？

提交意见反馈