kv-cache-compression

#kv-cache-compression

CompressKV：语义检索引导的KV缓存压缩方法，用于资源高效的长上下文大语言模型推理

arXiv cs.AI ↗ · 昨天缓存

CompressKV针对基于GQA的大语言模型，提出了一种语义检索引导的KV缓存压缩方法，通过识别语义检索头来保留关键令牌。在LongBench任务中，仅使用3%的KV缓存即可实现超过97%的全缓存性能。

0 人收藏 0 人点赞

#kv-cache-compression

PolyKV: 异构保留与分配的KV缓存压缩

arXiv cs.LG ↗ · 2026-06-16 缓存

PolyKV是一种逐层的KV缓存压缩框架，为每一层分配异构的驱逐策略和非均匀的预算，在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。

0 人收藏 0 人点赞

#kv-cache-compression

Tangram：解锁非均匀KV缓存压缩，实现高效的多轮LLM服务

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文介绍了Tangram，一个服务框架，它静态解析多轮LLM服务中的非均匀KV缓存压缩，相比全KV基线实现了高达2.6倍的吞吐量提升，同时消除了运行时开销。

0 人收藏 0 人点赞

#kv-cache-compression

[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速

Reddit r/LocalLLaMA ↗ · 2026-06-08

在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示，针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速，且困惑度下降极小，其中 q4_0/turbo4 提供了最佳平衡。

0 人收藏 0 人点赞

#kv-cache-compression

@NFTCPS: 本地跑大模型的注意了！有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。它把三个顶级优化方案塞进一个代码库： DFlash推测解码…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.

0 人收藏 0 人点赞

#kv-cache-compression

如何在强化学习后训练中压缩 KV 缓存？用于内存高效对齐的阴影掩码蒸馏

arXiv cs.LG ↗ · 2026-05-11 缓存

本文提出了阴影掩码蒸馏（SMD），旨在解决大语言模型在强化学习后训练中因 KV 缓存压缩而导致的离策略偏差。该方法引入了一种机制，确保在策略上的对齐，并提高长上下文推理任务的内存效率。

0 人收藏 0 人点赞

#kv-cache-compression

Forcing-KV：面向高效自回归视频扩散模型的混合KV缓存压缩策略

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

本文介绍了Forcing-KV，这是一种针对自回归视频扩散模型的混合KV缓存压缩策略，它将注意力头分为静态和动态两类，在1080P分辨率下实现了高达2.82倍的加速，同时保持了输出质量。

0 人收藏 0 人点赞

#kv-cache-compression

OjaKV: 上下文感知的在线低秩KV缓存压缩

arXiv cs.CL ↗ · 2026-04-20 缓存

OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架，该框架利用混合存储策略和Oja算法进行增量子空间自适应，以减少长上下文大语言模型推理中的GPU内存瓶颈，且无需模型微调。

0 人收藏 0 人点赞

kv-cache-compression

提交意见反馈