关于次二次架构:从应用到原理

Hugging Face Daily Papers 论文

摘要

本文在复杂序列建模任务上比较了 xLSTM、Mamba-2 和 Gated DeltaNet,发现 xLSTM 因其增强的状态追踪和记忆动态而更优,并在合成长度泛化任务上得到验证。

Transformer 主导着现代序列建模,但它们的二次注意力机制带来了巨大的计算成本。次二次架构提供了一种可扩展的替代方案。然而,目前尚不清楚哪种设计能产生最有效的序列模型。我们比较了三种领先方法:xLSTM、Mamba-2 和 Gated DeltaNet。我们在具有复杂依赖关系的任务上评估这些模型:(1) 代码模型预训练,(2) 从大语言模型中蒸馏代码模型,(3) 时序基础模型的预训练。在这些设置中,xLSTM 展现了最强的整体性能。为了解释 xLSTM 的优势,我们提出了一种统一的公式,并分析了底层的架构机制,重点关注状态追踪和记忆动态。我们的结果表明,xLSTM 通过其门控机制实现了更灵活和稳定的记忆修正。我们在受控的合成长度泛化任务上验证了这些发现。总体而言,我们的发现表明 xLSTM 在复杂任务上的收益来源于稳健的状态追踪和累积。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:36

Paper page - On Subquadratic Architectures: From Applications to Principles

来源:https://huggingface.co/papers/2606.12364

摘要

xLSTM 在序列建模任务中表现出优于 Mamba-2 和 Gated DeltaNet 的性能,这得益于其增强的状态跟踪和记忆动态。

Transformer(https://huggingface.co/papers?q=Transformers)主导着现代序列建模(https://huggingface.co/papers?q=sequence%20modeling),但其二次注意力(https://huggingface.co/papers?q=attention)带来了巨大的计算成本。次二次架构(https://huggingface.co/papers?q=Subquadratic%20architectures)提供了一种可扩展的替代方案。然而,哪些设计能产生最有效的序列模型仍不清楚。我们比较了三种领先的方法:xLSTM(https://huggingface.co/papers?q=xLSTM)、Mamba-2(https://huggingface.co/papers?q=Mamba-2)和 Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)。我们在具有复杂依赖关系的任务上评估这些模型:(1) 代码模型预训练(https://huggingface.co/papers?q=code-model%20pre-training),(2) 从大型语言模型中蒸馏(https://huggingface.co/papers?q=distillation)代码模型,以及 (3) 时间序列基础模型(https://huggingface.co/papers?q=time-series%20foundation%20models)的预训练。在这些设置中,xLSTM(https://huggingface.co/papers?q=xLSTM)提供了最强的整体性能。为了解释 xLSTM(https://huggingface.co/papers?q=xLSTM)的优势,我们提出了一个统一的公式并分析了底层的架构机制,重点关注状态跟踪(https://huggingface.co/papers?q=state%20tracking)和记忆动态(https://huggingface.co/papers?q=memory%20dynamics)。我们的结果表明,xLSTM(https://huggingface.co/papers?q=xLSTM)通过其门控方案(https://huggingface.co/papers?q=gating%20scheme)实现了更灵活和稳定的记忆校正。我们在受控的合成长度泛化任务(https://huggingface.co/papers?q=length-generalization%20tasks)上验证了这些发现。总体而言,我们的发现表明,xLSTM(https://huggingface.co/papers?q=xLSTM)在复杂任务上的性能提升源于其稳健的状态跟踪(https://huggingface.co/papers?q=state%20tracking)和积累。

查看 arXiv 页面(https://arxiv.org/abs/2606.12364)查看 PDF(https://arxiv.org/pdf/2606.12364)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12364)

在您的代理中获取此论文:

hf papers read 2606\.12364

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。

引用此论文的数据集 0

暂无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。

引用此论文的 Space 0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12364 以在此页面建立链接。

包含此论文的合集 1

相似文章

解锁门控Delta网络在大规模训练中的特征学习能力

arXiv cs.LG

本文推导了门控Delta网络的μP(最大更新参数化)缩放规则,实现了跨模型宽度的零样本超参数迁移,从而高效支持亚二次方复杂度的大语言模型架构。实验表明,在AdamW和SGD优化器下,该方法均能实现稳定的学习率迁移,而标准参数化方案则无法做到这一点。