标签
提出擦除后增量注意力(EDA),一种用于线性注意力的记忆更新规则,它在写入新内容之前,先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明,在标准评估和长上下文评估中均取得一致增益。
介绍了一种基于汉克尔降阶模型(HRM)的适配器,这是一种通过平衡截断初始化的SSM残差模块,用于参数高效微调,在长上下文任务中优于LoRA。
HydraHead 是一种新颖的注意力混合架构,通过在头部层级结合完全注意力和线性注意力,利用可解释性驱动的选择和尺度归一化融合,实现长上下文性能卓越并减少训练开销。
SinkRec引入了一种混合内存-转换架构,通过内存条件门控Delta网络将模式存储与动态建模解耦,以线性时间效率缓解长序列推荐中的语义状态沉没。
提出模糊窗口注意力(BLA),一种具有有界记忆控制的新型注意力方法,通过狄利克雷核插值重建模糊的KV历史,在多查询关联回忆任务上实现了比滑动窗口注意力高8倍的状态效率。
本文提出DLA,一种用于多状态线性注意力的动态内存建模框架,它能根据令牌信息变化自适应地合并状态,并维护固定大小的状态缓存,从而在无需标准注意力二次复杂度的前提下实现更好的长上下文表示。
DLA引入了自适应状态合并和容量受限的内存建模,用于多状态线性注意力,提升了长上下文LLM的性能。
本文推导了门控Delta网络的μP(最大更新参数化)缩放规则,实现了跨模型宽度的零样本超参数迁移,从而高效支持亚二次方复杂度的大语言模型架构。实验表明,在AdamW和SGD优化器下,该方法均能实现稳定的学习率迁移,而标准参数化方案则无法做到这一点。
讨论了这样一个发现:所有 softmax/线性注意力变体都可以被插值,并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。
本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。
提出了Interdomain Attention,一种通过核方法将状态空间模型集成到注意力中的新方法,实现了固定大小状态的高效长上下文建模,并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。
Tensor Cache 引入了一种两级缓存机制,将滑动窗口注意力中驱逐的键值对压缩成固定大小的关联记忆,从而在无需无界内存增长的情况下改进长上下文语言建模。
NVIDIA 推出 Gated DeltaNet-2,一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法,使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。
Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。
Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门,在长上下文语言建模和检索任务中实现了优越的性能。
本文介绍了一种名为Exact Linear Attention (ELA) 的机制,该机制通过利用核函数分解,在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度,并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接(Hyper Link)、记忆叶(Memory Lobe)以及面向混合专家模型的路由偏置在内的工程创新。
本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。
提出联邦嵌套学习(FedNL)框架,将联邦学习重构成三级嵌套优化系统,实现自指记忆的协同训练以支持测试时自适应,从而处理非独立同分布数据和长尾分布。
Moonshot AI创始人杨植麟发布40分钟视频,详细拆解Kimi K2模型训练过程,仅花费460万美元,并在8模型编程大战中击败GPT-5.5等夺得第一,展现小团队通过架构优化颠覆传统堆算力模式。
本文介绍了变分线性注意力(VLA),这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题,证明了状态范数的有界性,并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。