标签
本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。
NestedKV是一种无需训练的KV缓存压缩方法,它采用嵌套内存路由和多时间尺度异常评分,提升长上下文语言模型的效率,在RULER和LongBench等基准测试上取得了显著效果。
本文探讨了RAT+中的指数衰减记忆模块如何提升长上下文语言模型的查询感知稀疏推理方法,在针尖干草垛任务中,跨多种稀疏预算展示了一致的准确率提升。
一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态,从而提升在长期任务上的表现,解决了上下文长度扩展的问题。
Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。
本文认为,极端的上下文稀疏性是LLM推理的一个有原则且可行的基础,展示了当前模型能够容忍高达100倍的稀疏性而无质量损失,并且稀疏解码内核可以在现有硬件上将处理速度提升10倍。
本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。
A 12-chapter interactive textbook that teaches how to build a GPT-like language model from absolute scratch, with fully annotated code and beginner-friendly explanations.
Delta Attention Residuals 是一种对残差连接的即插即用升级,它通过增量(deltas)而非累积隐藏状态进行路由,实现更清晰的跨层路由,在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%,并支持以几乎为零的开销微调预训练模型(如 Qwen3-0.6B)。
ThriftAttention提出了一种选择性混合精度注意力方法,该方法仅对一小部分查询-键块使用FP16计算,其余使用FP4,从而在长上下文推理中实现接近FP16的质量和FP4的效率。
Tensor Cache 引入了一种两级缓存机制,将滑动窗口注意力中驱逐的键值对压缩成固定大小的关联记忆,从而在无需无界内存增长的情况下改进长上下文语言建模。
一条推文,解释了关键Transformer概念背后的数学基础,包括注意力、缩放因子、反向传播、梯度下降、交叉熵损失、RoPE和RMSNorm。
DeepSeek的KV缓存压缩创新,包括MLA和CSA/HCA,将KV缓存大小减少了93%,实现了高效的长上下文推理和基于SSD的缓存,正如antirez的ds4.c项目所展示的那样。
一篇教育性推文串,解释了理解和从头构建LLM架构的11个关键课程,涵盖token、嵌入、注意力、位置编码、数据质量和常见误解。
EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。
SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。
本文介绍了一种名为Exact Linear Attention (ELA) 的机制,该机制通过利用核函数分解,在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度,并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接(Hyper Link)、记忆叶(Memory Lobe)以及面向混合专家模型的路由偏置在内的工程创新。
本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。
本文识别了MLLMs中不平衡的注意力头组,这些头组驱动或抵抗模态冲突幻觉,并提出了MACI(模态冲突感知因果干预),一种仅在检测到冲突时抑制幻觉驱动头的因果干预方法,在五个模型上实现了大幅的幻觉减少。
Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。