标签
这条推文分享了一篇关于LLMs内部工作原理的详尽解释,涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络,来源于0xkato的一篇博文。
LazyAttention 提出了一种新颖的注意力机制,通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下,该方法与 Block-Attention 相比,首 token 生成时间缩短至原来的 1/1.37×,推理吞吐量提升 1.40×。
Wall Attention 将对角遗忘门泛化到 softmax 注意力,实现了从 4k 到 160k+ 上下文的零样本最先进长度外推,并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布,附带开源的 Triton 内核。
本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。
本文深入剖析了 DeepSeek-V4 中 RoPE(旋转位置编码)设计的技术细节,重点阐述了在 CSA 和 HCA 模块中如何处理 token 压缩与共享 KV 缓存。