标签
InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。
FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention(LSA)的新型推理范式,通过神经内存索引器主动预测未来上下文需求,将物理KV缓存占用压缩至全上下文基线的13.5%,同时平均精度提升0.6%。该方法采用解耦训练策略,无需加载基座模型即可独立训练索引器,显著降低训练成本。
用户寻求关于如何防止 llama.cpp 在 RAM 完全耗尽前将 KV 缓存卸载到交换空间的建议,并分享了他们在配备 96GB RAM 的 M2 Max 和大型 Qwen 模型上的配置。
本文提出一种利用对齐的KV缓存变换在异构多智能体系统间进行密集潜在通信的方法,相比基于文本的方法,性能更优且计算成本更低。
介绍了RKSC,一个无需训练的推理框架,用于多分支LLM推理,通过基于相似度的共享和提前退出减少KV缓存冗余,实现最高3倍加速且错误率极低。
IntentKV提出了一种针对多轮LLM Agent的跨轮次意图感知KV缓存剪枝方法,通过维护会话级别的查询记忆来高效剪枝缓存,且不损失精度,显著减少了token使用量和KV读取次数。
本文揭示了低比特KV缓存量化会悄无声息地破坏经过指令微调的大语言模型的安全对齐,并提出了一种诊断方法(PCR)对失效模式进行分类,以及一种无需训练的缓解方案,可恢复高达97%的丢失对齐。
本文提出Prefilling-dLLM,一种无需训练的框架,它将前缀分割成块并缓存KV表示,在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。
这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念,认为主要瓶颈是内存(KV缓存增长)而非计算,并探讨了压缩作为未来模型的关键方向。
提出Reroute,一种无需训练的视觉语言模型插件,用可恢复的路由替代不可逆的视觉令牌剪枝,允许令牌在后续阶段重新进入流水线,从而在激进的令牌缩减下提升接地性能,同时保持VQA性能。
介绍了FlashMemory DeepSeek-V4检索器,这是一个轻量级模型,通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存,仅保留约10-15%在设备上,同时匹配全注意力性能。
这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设,提出合并它们可以为KV缓存带来巨大的内存节省。
本论文研究了Transformer是否需要独立的键和值投影,发现共享它们可将KV缓存减少50%,而困惑度仅增加3.1%,并且与GQA和MQA结合时进一步减少。
OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略,在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。
本文提出语义缓存蒸馏(SCD),一种带损失约束的框架,用紧凑的语义码替换原始KV缓存传输,在保持生成质量在oracle的5% F1内的同时,实现高达2.65倍的TTFT加速。
FadeMem 引入了一种距离感知的键值记忆整合机制,将历史视频数据组织成时间层次结构,在固定缓存约束下改进长视频生成。
ggerganov的此pull request优化了llama.cpp中的kv-cache,以避免不必要的kv cells复制,从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。
提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力,将GPU内存使用降至全上下文基线的约13.5%,同时保持或略微提升准确率。
一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验,在释放显存以便运行更大模型和上下文窗口的同时,实现了相近的速度,表明这种权衡通常是值得的。
本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架,按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类,并回顾了2024至2026年间的十八种代表性方法。