positional-encoding

标签

Cards List
#positional-encoding

@CamilleRoux: 对LLMs内部工作原理的精彩解释:tokens、embeddings、positional encoding、attention、feed-forward…

X AI KOLs Timeline · 23小时前 缓存

这条推文分享了一篇关于LLMs内部工作原理的详尽解释,涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络,来源于0xkato的一篇博文。

1 人收藏 1 人点赞
#positional-encoding

LazyAttention:通过延迟位置编码实现高效检索增强生成

arXiv cs.CL · 2026-06-04 缓存

LazyAttention 提出了一种新颖的注意力机制,通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下,该方法与 Block-Attention 相比,首 token 生成时间缩短至原来的 1/1.37×,推理吞吐量提升 1.40×。

0 人收藏 0 人点赞
#positional-encoding

@tilderesearch: https://x.com/tilderesearch/status/2061771450168889432

X AI KOLs Timeline · 2026-06-02 缓存

Wall Attention 将对角遗忘门泛化到 softmax 注意力,实现了从 4k 到 160k+ 上下文的零样本最先进长度外推,并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布,附带开源的 Triton 内核。

0 人收藏 0 人点赞
#positional-encoding

能量门控注意力与Wavelet位置编码:Transformer注意力的互补归纳偏置

arXiv cs.LG · 2026-05-27 缓存

本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。

0 人收藏 0 人点赞
#positional-encoding

@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…

X AI KOLs Timeline · 2026-05-26 缓存

一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。

0 人收藏 0 人点赞
#positional-encoding

@YouJiacheng: > 直接将RoPE旋转应用于KV会泄露位置信息到值矩阵V 科学空间亦有记载 https://kexue.fm/…

X AI KOLs Timeline · 2026-05-07 缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞
#positional-encoding

@ZhihuFrontier:DeepSeek-V4 RoPE 设计深度分析——来自知乎用户凯源的核心技术洞察。核心痛点…

X AI KOLs Timeline · 2026-05-07

本文深入剖析了 DeepSeek-V4 中 RoPE(旋转位置编码)设计的技术细节,重点阐述了在 CSA 和 HCA 模块中如何处理 token 压缩与共享 KV 缓存。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈