positional-encoding

#positional-encoding

@CamilleRoux: 对LLMs内部工作原理的精彩解释：tokens、embeddings、positional encoding、attention、feed-forward…

X AI KOLs Timeline ↗ · 昨天缓存

这条推文分享了一篇关于LLMs内部工作原理的详尽解释，涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络，来源于0xkato的一篇博文。

1 人收藏 1 人点赞

#positional-encoding

arXiv cs.CL ↗ · 2026-06-04 缓存

LazyAttention 提出了一种新颖的注意力机制，通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下，该方法与 Block-Attention 相比，首 token 生成时间缩短至原来的 1/1.37×，推理吞吐量提升 1.40×。

0 人收藏 0 人点赞

#positional-encoding

X AI KOLs Timeline ↗ · 2026-06-02 缓存

Wall Attention 将对角遗忘门泛化到 softmax 注意力，实现了从 4k 到 160k+ 上下文的零样本最先进长度外推，并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布，附带开源的 Triton 内核。

0 人收藏 0 人点赞

#positional-encoding

arXiv cs.LG ↗ · 2026-05-27 缓存

本文提出能量门控注意力（EGA）和Morlet位置编码（MoPE），以解决Transformer注意力中缺失的归纳偏置：令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明，两者结合时获得超加性收益，凸显了互补性。

0 人收藏 0 人点赞

#positional-encoding

X AI KOLs Timeline ↗ · 2026-05-26 缓存

一篇深入探讨现代密集Transformer内部工作原理的博文，涵盖YaRN（位置信息）、混合注意力（实现160k上下文长度）、soft capping、QK归一化，以及Transformer数学（包括FLOPs/Token公式和集群规模估算）。

0 人收藏 0 人点赞

#positional-encoding

X AI KOLs Timeline ↗ · 2026-05-07 缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义，指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞

#positional-encoding

X AI KOLs Timeline ↗ · 2026-05-07

本文深入剖析了 DeepSeek-V4 中 RoPE（旋转位置编码）设计的技术细节，重点阐述了在 CSA 和 HCA 模块中如何处理 token 压缩与共享 KV 缓存。

0 人收藏 0 人点赞