rope

#rope

@ickma2311: 高效AI讲座15：长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是：哪些过…

X AI KOLs Timeline ↗ · 2026-05-25 缓存

本文总结了关于长上下文LLM的高效AI讲座15，涵盖用于上下文扩展的RoPE位置插值、大海捞针评估，以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。

0 人收藏 0 人点赞

#rope

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

SEGA是一种无需训练的方法，通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力，改善高分辨率文本到图像生成。

0 人收藏 0 人点赞

#rope

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

本文证明，基于RoPE的注意力机制在长上下文中无法区分词元位置和身份，解释了LLM在宣称的上下文长度内失败的原因。实验验证表明，针对检索优化的模型在简单列表任务上表现困难。

0 人收藏 0 人点赞

#rope

X AI KOLs Timeline ↗ · 2026-05-07 缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义，指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞

#rope

X AI KOLs Timeline ↗ · 2026-05-07

本文深入剖析了 DeepSeek-V4 中 RoPE（旋转位置编码）设计的技术细节，重点阐述了在 CSA 和 HCA 模块中如何处理 token 压缩与共享 KV 缓存。

0 人收藏 0 人点赞