kv-cache-compression

标签

Cards List
#kv-cache-compression

CompressKV:语义检索引导的KV缓存压缩方法,用于资源高效的长上下文大语言模型推理

arXiv cs.AI · 昨天 缓存

CompressKV针对基于GQA的大语言模型,提出了一种语义检索引导的KV缓存压缩方法,通过识别语义检索头来保留关键令牌。在LongBench任务中,仅使用3%的KV缓存即可实现超过97%的全缓存性能。

0 人收藏 0 人点赞
#kv-cache-compression

PolyKV: 异构保留与分配的KV缓存压缩

arXiv cs.LG · 2026-06-16 缓存

PolyKV是一种逐层的KV缓存压缩框架,为每一层分配异构的驱逐策略和非均匀的预算,在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。

0 人收藏 0 人点赞
#kv-cache-compression

Tangram:解锁非均匀KV缓存压缩,实现高效的多轮LLM服务

Hugging Face Daily Papers · 2026-06-15 缓存

本文介绍了Tangram,一个服务框架,它静态解析多轮LLM服务中的非均匀KV缓存压缩,相比全KV基线实现了高达2.6倍的吞吐量提升,同时消除了运行时开销。

0 人收藏 0 人点赞
#kv-cache-compression

[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速

Reddit r/LocalLLaMA · 2026-06-08

在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示,针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速,且困惑度下降极小,其中 q4_0/turbo4 提供了最佳平衡。

0 人收藏 0 人点赞
#kv-cache-compression

@NFTCPS: 本地跑大模型的注意了! 有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp,同样的显存,推理速度直接干到3倍,上下文容量扩展7.5倍,这不是PPT,是实测数据。 它把三个顶级优化方案塞进一个代码库: DFlash推测解码…

X AI KOLs Timeline · 2026-05-16 缓存

BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.

0 人收藏 0 人点赞
#kv-cache-compression

如何在强化学习后训练中压缩 KV 缓存?用于内存高效对齐的阴影掩码蒸馏

arXiv cs.LG · 2026-05-11 缓存

本文提出了阴影掩码蒸馏(SMD),旨在解决大语言模型在强化学习后训练中因 KV 缓存压缩而导致的离策略偏差。该方法引入了一种机制,确保在策略上的对齐,并提高长上下文推理任务的内存效率。

0 人收藏 0 人点赞
#kv-cache-compression

Forcing-KV:面向高效自回归视频扩散模型的混合KV缓存压缩策略

Hugging Face Daily Papers · 2026-05-10 缓存

本文介绍了Forcing-KV,这是一种针对自回归视频扩散模型的混合KV缓存压缩策略,它将注意力头分为静态和动态两类,在1080P分辨率下实现了高达2.82倍的加速,同时保持了输出质量。

0 人收藏 0 人点赞
#kv-cache-compression

OjaKV: 上下文感知的在线低秩KV缓存压缩

arXiv cs.CL · 2026-04-20 缓存

OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈