kv-cache

标签

#kv-cache

开源 InfiniteKV：一种 KV 缓存，将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中，而非删除。Mistral-7B 从 token 76,747 处作答，超出其训练窗口 2.3 倍。附 Colab 演示

Reddit r/LocalLLaMA ↗ · 昨天

InfiniteKV 是一种开源 KV 缓存技术，将旧 token 压缩为 104 字节的可搜索记录，存储在内存或磁盘中，使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。

0 人收藏 0 人点赞

#kv-cache

@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…

X AI KOLs Following ↗ · 昨天缓存

FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention（LSA）的新型推理范式，通过神经内存索引器主动预测未来上下文需求，将物理KV缓存占用压缩至全上下文基线的13.5%，同时平均精度提升0.6%。该方法采用解耦训练策略，无需加载基座模型即可独立训练索引器，显著降低训练成本。

0 人收藏 0 人点赞

#kv-cache

如何防止 llama.cpp 将数据卸载到交换空间？

Reddit r/LocalLLaMA ↗ · 2天前

用户寻求关于如何防止 llama.cpp 在 RAM 完全耗尽前将 KV 缓存卸载到交换空间的建议，并分享了他们在配备 96GB RAM 的 M2 Max 和大型 Qwen 模型上的配置。

0 人收藏 0 人点赞

#kv-cache

见我所见，知我所想：异构智能体间的密集潜在通信

Hugging Face Daily Papers ↗ · 2天前缓存

本文提出一种利用对齐的KV缓存变换在异构多智能体系统间进行密集潜在通信的方法，相比基于文本的方法，性能更优且计算成本更低。

0 人收藏 0 人点赞

#kv-cache

RKSC: 面向多步LLM推理的推理感知KV缓存共享与自信提前退出

arXiv cs.LG ↗ · 3天前缓存

介绍了RKSC，一个无需训练的推理框架，用于多分支LLM推理，通过基于相似度的共享和提前退出减少KV缓存冗余，实现最高3倍加速且错误率极低。

0 人收藏 0 人点赞

#kv-cache

IntentKV: 面向Agent推理的跨轮次意图感知KV缓存剪枝

arXiv cs.LG ↗ · 3天前缓存

IntentKV提出了一种针对多轮LLM Agent的跨轮次意图感知KV缓存剪枝方法，通过维护会话级别的查询记忆来高效剪枝缓存，且不损失精度，显著减少了token使用量和KV读取次数。

0 人收藏 0 人点赞

#kv-cache

KV缓存量化下的对齐崩溃：诊断与缓解

arXiv cs.LG ↗ · 3天前缓存

本文揭示了低比特KV缓存量化会悄无声息地破坏经过指令微调的大语言模型的安全对齐，并提出了一种诊断方法（PCR）对失效模式进行分类，以及一种无需训练的缓解方案，可恢复高达97%的丢失对齐。

0 人收藏 0 人点赞

#kv-cache

Prefilling-dLLM：扩散语言模型中长上下文推理的预测性预填充

arXiv cs.CL ↗ · 3天前缓存

本文提出Prefilling-dLLM，一种无需训练的框架，它将前缀分割成块并缓存KV表示，在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。

0 人收藏 0 人点赞

#kv-cache

@HaochengXiUCB: 新博客文章：视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……

X AI KOLs Following ↗ · 3天前缓存

这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念，认为主要瓶颈是内存（KV缓存增长）而非计算，并探讨了压缩作为未来模型的关键方向。

0 人收藏 0 人点赞

#kv-cache

Reroute，而非移除：面向视觉语言模型的可恢复视觉令牌路由

Hugging Face Daily Papers ↗ · 3天前缓存

提出Reroute，一种无需训练的视觉语言模型插件，用可恢复的路由替代不可逆的视觉令牌剪枝，允许令牌在后续阶段重新进入流水线，从而在激进的令牌缩减下提升接地性能，同时保持VQA性能。

0 人收藏 0 人点赞

#kv-cache

FlashMemory DeepSeek-V4 检索器（GitHub仓库）

TLDR AI ↗ · 3天前缓存

介绍了FlashMemory DeepSeek-V4检索器，这是一个轻量级模型，通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存，仅保留约10-15%在设备上，同时匹配全注意力性能。

0 人收藏 0 人点赞

#kv-cache

@che_shr_cat: 1/ 多年来我们一直通过头部共享（GQA/MQA）来优化KV缓存，但我们忽略了一个基本假设：为什么……

X AI KOLs Timeline ↗ · 3天前缓存

这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设，提出合并它们可以为KV缓存带来巨大的内存节省。

0 人收藏 0 人点赞

#kv-cache

@rohanpaul_ai: 有趣，这篇论文表明Transformer可能不需要独立的键和值投影就能表现良好。这篇论文…

X AI KOLs Timeline ↗ · 4天前缓存

本论文研究了Transformer是否需要独立的键和值投影，发现共享它们可将KV缓存减少50%，而困惑度仅增加3.1%，并且与GQA和MQA结合时进一步减少。

0 人收藏 0 人点赞

#kv-cache

OmniMem: 面向流式音视频大模型的扰动感知记忆压缩

arXiv cs.AI ↗ · 4天前缓存

OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略，在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。

0 人收藏 0 人点赞

#kv-cache

语义缓存蒸馏：通过重用与选择性修补实现高效状态转移

arXiv cs.LG ↗ · 4天前缓存

本文提出语义缓存蒸馏（SCD），一种带损失约束的框架，用紧凑的语义码替换原始KV缓存传输，在保持生成质量在oracle的5% F1内的同时，实现高达2.65倍的TTFT加速。

0 人收藏 0 人点赞

#kv-cache

FadeMem: 距离感知的记忆整合用于自回归视频扩散

Hugging Face Daily Papers ↗ · 4天前缓存

FadeMem 引入了一种距离感知的键值记忆整合机制，将历史视频数据组织成时间层次结构，在固定缓存约束下改进长视频生成。

0 人收藏 0 人点赞

#kv-cache

kv-cache : 避免kv cells复制 by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 5天前缓存

ggerganov的此pull request优化了llama.cpp中的kv-cache，以避免不必要的kv cells复制，从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。

0 人收藏 0 人点赞

#kv-cache

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

Hugging Face Daily Papers ↗ · 5天前缓存

提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力，将GPU内存使用降至全上下文基线的约13.5%，同时保持或略微提升准确率。

0 人收藏 0 人点赞

#kv-cache

也许将KV缓存卸载到RAM并不差

Reddit r/LocalLLaMA ↗ · 2026-06-05

一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验，在释放显存以便运行更大模型和上下文窗口的同时，实现了相近的速度，表明这种权衡通常是值得的。

0 人收藏 0 人点赞

#kv-cache

超越标记：基于LLM的多智能体系统中潜在通信的统一框架

arXiv cs.CL ↗ · 2026-06-05 缓存

本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架，按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类，并回顾了2024至2026年间的十八种代表性方法。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈