rope

标签

Cards List
#rope

@ickma2311: 高效AI讲座15:长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是:哪些过…

X AI KOLs Timeline · 2026-05-25 缓存

本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。

0 人收藏 0 人点赞
#rope

SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

Hugging Face Daily Papers · 2026-05-21 缓存

SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。

0 人收藏 0 人点赞
#rope

RoPE 在长上下文中既无法区分位置也无法区分词元,可证明

Hugging Face Daily Papers · 2026-05-15 缓存

本文证明,基于RoPE的注意力机制在长上下文中无法区分词元位置和身份,解释了LLM在宣称的上下文长度内失败的原因。实验验证表明,针对检索优化的模型在简单列表任务上表现困难。

0 人收藏 0 人点赞
#rope

@YouJiacheng: > 直接将RoPE旋转应用于KV会泄露位置信息到值矩阵V 科学空间亦有记载 https://kexue.fm/…

X AI KOLs Timeline · 2026-05-07 缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞
#rope

@ZhihuFrontier:DeepSeek-V4 RoPE 设计深度分析——来自知乎用户凯源的核心技术洞察。核心痛点…

X AI KOLs Timeline · 2026-05-07

本文深入剖析了 DeepSeek-V4 中 RoPE(旋转位置编码)设计的技术细节,重点阐述了在 CSA 和 HCA 模块中如何处理 token 压缩与共享 KV 缓存。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈