linear-attention

#linear-attention

擦除后增量注意力：在Delta规则线性注意力中解耦擦除与写入地址

arXiv cs.CL ↗ · 昨天缓存

提出擦除后增量注意力（EDA），一种用于线性注意力的记忆更新规则，它在写入新内容之前，先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明，在标准评估和长上下文评估中均取得一致增益。

0 人收藏 0 人点赞

#linear-attention

基于汉克尔降阶建模的SSM适配器：注入位置决定长上下文微调中的任务适配性

arXiv cs.LG ↗ · 昨天缓存

介绍了一种基于汉克尔降阶模型（HRM）的适配器，这是一种通过平衡截断初始化的SSM残差模块，用于参数高效微调，在长上下文任务中优于LoRA。

0 人收藏 0 人点赞

#linear-attention

HydraHead：从头部级功能异质性到专注意力混合

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

HydraHead 是一种新颖的注意力混合架构，通过在头部层级结合完全注意力和线性注意力，利用可解释性驱动的选择和尺度归一化融合，实现长上下文性能卓越并减少训练开销。

0 人收藏 0 人点赞

#linear-attention

SinkRec：使用内存条件门控Delta网络缓解长序列推荐中的语义状态沉没

arXiv cs.LG ↗ · 2026-06-10 缓存

SinkRec引入了一种混合内存-转换架构，通过内存条件门控Delta网络将模式存储与动态建模解耦，以线性时间效率缓解长序列推荐中的语义状态沉没。

0 人收藏 0 人点赞

#linear-attention

模糊窗口注意力

arXiv cs.LG ↗ · 2026-06-10 缓存

提出模糊窗口注意力（BLA），一种具有有界记忆控制的新型注意力方法，通过狄利克雷核插值重建模糊的KV历史，在多查询关联回忆任务上实现了比滑动窗口注意力高8倍的状态效率。

0 人收藏 0 人点赞

#linear-attention

动态线性注意力

arXiv cs.CL ↗ · 2026-06-10 缓存

本文提出DLA，一种用于多状态线性注意力的动态内存建模框架，它能根据令牌信息变化自适应地合并状态，并维护固定大小的状态缓存，从而在无需标准注意力二次复杂度的前提下实现更好的长上下文表示。

0 人收藏 0 人点赞

#linear-attention

Dynamic Linear Attention

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

DLA引入了自适应状态合并和容量受限的内存建模，用于多状态线性注意力，提升了长上下文LLM的性能。

0 人收藏 0 人点赞

#linear-attention

解锁门控Delta网络在大规模训练中的特征学习能力

arXiv cs.LG ↗ · 2026-06-04 缓存

本文推导了门控Delta网络的μP（最大更新参数化）缩放规则，实现了跨模型宽度的零样本超参数迁移，从而高效支持亚二次方复杂度的大语言模型架构。实验表明，在AdamW和SGD优化器下，该方法均能实现稳定的学习率迁移，而标准参数化方案则无法做到这一点。

0 人收藏 0 人点赞

#linear-attention

@zhaoran_wang: 对我来说，最酷的发现是你可以连接/插值所有 softmax/线性变体，并给出一个有前途的方向……

X AI KOLs Timeline ↗ · 2026-05-30 缓存

讨论了这样一个发现：所有 softmax/线性注意力变体都可以被插值，并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。

0 人收藏 0 人点赞

#linear-attention

利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文提出了一种方法，将预训练的Softmax注意力模型转换为线性复杂度的测试时训练（TTT）架构，在显著加速推理的同时，实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5，在1K分辨率下实现1.32倍加速。

0 人收藏 0 人点赞

#linear-attention

Interdomain Attention: 超越令牌级键值记忆

arXiv cs.LG ↗ · 2026-05-26 缓存

提出了Interdomain Attention，一种通过核方法将状态空间模型集成到注意力中的新方法，实现了固定大小状态的高效长上下文建模，并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。

0 人收藏 0 人点赞

#linear-attention

Tensor Cache: 基于驱逐条件的Transformer关联记忆

arXiv cs.LG ↗ · 2026-05-25 缓存

Tensor Cache 引入了一种两级缓存机制，将滑动窗口注意力中驱逐的键值对压缩成固定大小的关联记忆，从而在无需无界内存增长的情况下改进长上下文语言建模。

0 人收藏 0 人点赞

#linear-attention

@jiqizhixin: NVIDIA 新成果！你可以在不扰乱模型已有知识的前提下编辑其压缩记忆！推出 Gated DeltaNe…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

NVIDIA 推出 Gated DeltaNet-2，一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法，使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。

0 人收藏 0 人点赞

#linear-attention

@BlinkDL_AI：Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环，却对房间里的大象视而不见

X AI KOLs Following ↗ · 2026-05-22 缓存

Ali Hatamizadeh 宣布了 Gated DeltaNet-2，一种新的线性注意力模型，在 1.3B 规模上优于 KDA 和 Mamba-3；@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。

0 人收藏 0 人点赞

#linear-attention

Gated DeltaNet-2：线性注意力中的擦除与写入解耦

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门，在长上下文语言建模和检索任务中实现了优越的性能。

0 人收藏 0 人点赞

#linear-attention

Exact Linear Attention

arXiv cs.LG ↗ · 2026-05-20

本文介绍了一种名为Exact Linear Attention (ELA) 的机制，该机制通过利用核函数分解，在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度，并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接（Hyper Link）、记忆叶（Memory Lobe）以及面向混合专家模型的路由偏置在内的工程创新。

0 人收藏 0 人点赞

#linear-attention