attention

#attention

能量门控注意力与Wavelet位置编码：Transformer注意力的互补归纳偏置

arXiv cs.LG ↗ · 2026-05-27 缓存

本文提出能量门控注意力（EGA）和Morlet位置编码（MoPE），以解决Transformer注意力中缺失的归纳偏置：令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明，两者结合时获得超加性收益，凸显了互补性。

0 人收藏 0 人点赞

#attention

NestedKV: 嵌套内存路由用于长上下文KV缓存压缩

arXiv cs.CL ↗ · 2026-05-27 缓存

NestedKV是一种无需训练的KV缓存压缩方法，它采用嵌套内存路由和多时间尺度异常评分，提升长上下文语言模型的效率，在RULER和LongBench等基准测试上取得了显著效果。

0 人收藏 0 人点赞

#attention

利用指数衰减记忆增强注意力提升查询感知的KV稀疏性

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文探讨了RAT+中的指数衰减记忆模块如何提升长上下文语言模型的查询感知稀疏推理方法，在针尖干草垛任务中，跨多种稀疏预算展示了一致的准确率提升。

0 人收藏 0 人点赞

#attention

@omarsar0: 语言模型需要“睡眠”

X AI KOLs Following ↗ · 2026-05-26 缓存

一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态，从而提升在长期任务上的表现，解决了上下文长度扩展的问题。

0 人收藏 0 人点赞

#attention

@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核，使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…

X AI KOLs Following ↗ · 2026-05-26 缓存

Meta 开源了 TLX Block Attention，这是一个 warp 特化的 Triton 内核，在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速，与旋转嵌入融合时加速可达 3.5 倍。

0 人收藏 0 人点赞

#attention

推理时上下文稀疏性：幻象还是机遇？

arXiv cs.AI ↗ · 2026-05-26 缓存

本文认为，极端的上下文稀疏性是LLM推理的一个有原则且可行的基础，展示了当前模型能够容忍高达100倍的稀疏性而无质量损失，并且稀疏解码内核可以在现有硬件上将处理速度提升10倍。

0 人收藏 0 人点赞

#attention

刻画神经过程的表征能力

arXiv cs.LG ↗ · 2026-05-26 缓存

本文从理论上刻画了神经过程（NP）架构的表征能力，证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系，并表明有限维潜变量不会将表征能力扩展到编码器之外。

0 人收藏 0 人点赞

#attention

@vintcessun: 这项目贼离谱——用小孩都能听懂的方式，把 ChatGPT 背后的 GPT 从零手搓了一遍。每行代码都有注释，12 章 7500 多行，甚至专门讲清楚了 attention 那块我死活没搞懂的细节。说白了，如果你只想“理解”而不是“调包…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

A 12-chapter interactive textbook that teaches how to build a GPT-like language model from absolute scratch, with fully annotated code and beginner-friendly explanations.

0 人收藏 0 人点赞

#attention

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

Reddit r/MachineLearning ↗ · 2026-05-25

Delta Attention Residuals 是一种对残差连接的即插即用升级，它通过增量（deltas）而非累积隐藏状态进行路由，实现更清晰的跨层路由，在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%，并支持以几乎为零的开销微调预训练模型（如 Qwen3-0.6B）。

0 人收藏 0 人点赞

#attention

ThriftAttention: 长上下文FP4注意力的选择性混合精度

arXiv cs.LG ↗ · 2026-05-25 缓存

ThriftAttention提出了一种选择性混合精度注意力方法，该方法仅对一小部分查询-键块使用FP16计算，其余使用FP4，从而在长上下文推理中实现接近FP16的质量和FP4的效率。

0 人收藏 0 人点赞

#attention

Tensor Cache: 基于驱逐条件的Transformer关联记忆

arXiv cs.LG ↗ · 2026-05-25 缓存

Tensor Cache 引入了一种两级缓存机制，将滑动窗口注意力中驱逐的键值对压缩成固定大小的关联记忆，从而在无需无界内存增长的情况下改进长上下文语言建模。

0 人收藏 0 人点赞

#attention

@amitiitbhu: - 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯…

X AI KOLs Timeline ↗ · 2026-05-24

一条推文，解释了关键Transformer概念背后的数学基础，包括注意力、缩放因子、反向传播、梯度下降、交叉熵损失、RoPE和RMSNorm。

0 人收藏 0 人点赞

#attention

@Michaelzsguo: KV缓存是模型在生成期间的工作记忆。随着上下文窗口变长，模型必须保留更多…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

DeepSeek的KV缓存压缩创新，包括MLA和CSA/HCA，将KV缓存大小减少了93%，实现了高效的长上下文推理和基于SSD的缓存，正如antirez的ds4.c项目所展示的那样。

0 人收藏 0 人点赞

#attention

@Tabbu_ai: https://x.com/Tabbu_ai/status/2058145123444347339

X AI KOLs Timeline ↗ · 2026-05-23 缓存

一篇教育性推文串，解释了理解和从头构建LLM架构的11个关键课程，涵盖token、嵌入、注意力、位置编码、数据质量和常见误解。

0 人收藏 0 人点赞

#attention

EntmaxKV：面向Entmax注意力机制的支持感知解码

arXiv cs.LG ↗ · 2026-05-22 缓存

EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架，通过利用加载页面之前的稀疏性来减少KV缓存内存流量，在长上下文基准测试中实现了显著的加速，同时保持输出质量。

0 人收藏 0 人点赞

#attention

SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

SEGA是一种无需训练的方法，通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力，改善高分辨率文本到图像生成。

0 人收藏 0 人点赞

#attention

Exact Linear Attention

arXiv cs.LG ↗ · 2026-05-20

本文介绍了一种名为Exact Linear Attention (ELA) 的机制，该机制通过利用核函数分解，在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度，并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接（Hyper Link）、记忆叶（Memory Lobe）以及面向混合专家模型的路由偏置在内的工程创新。

0 人收藏 0 人点赞

#attention