kv-cache

#kv-cache

基于顿悟感知的KV缓存淘汰方法（无需注意力矩阵）

arXiv cs.LG ↗ · 11小时前缓存

本文介绍了EpiKV，一种基于内部表征变化（顿悟分数）而非注意力权重来评估token重要性的KV缓存淘汰方法，无需具体化注意力矩阵。该方法在推理基准测试中取得了具有竞争力的性能，同时支持长达16倍的上下文长度。

0 人收藏 0 人点赞

#kv-cache

KV缓存墙：为何固定大小内存的序列模型不断回归

Reddit r/ArtificialInteligence ↗ · 昨天

探讨了Transformer推理中KV缓存日益增长的内存瓶颈，解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。

0 人收藏 0 人点赞

#kv-cache

Dustin: 草稿增强的稀疏验证用于高效长上下文生成与推测解码

arXiv cs.CL ↗ · 昨天缓存

Dustin提出了一种用于推测解码的稀疏验证框架，利用草稿模型信号和稀疏注意力头评分克服KV缓存验证瓶颈，在长上下文任务中自注意力加速达27.85倍，端到端解码加速达9.17倍，且精度损失可忽略不计。

0 人收藏 0 人点赞

#kv-cache

DualPath: 破解智能体LLM推理中的存储带宽瓶颈

Reddit r/singularity ↗ · 昨天缓存

DualPath是一种通过引入双路径KV-cache加载机制来打破智能体LLM推理中存储带宽瓶颈的系统，离线吞吐量提升可达1.87倍，在线吞吐量提升可达1.96倍。

0 人收藏 0 人点赞

#kv-cache

内存墙变得昂贵：KV缓存是你应该停止崇拜softmax注意力的原因

Reddit r/singularity ↗ · 昨天

文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈，特别是LLM中softmax注意力的KV缓存，并强调了旨在减少内存使用的后Transformer架构，如线性注意力和状态空间模型。

0 人收藏 0 人点赞

#kv-cache

感知RoPE的KV缓存量化比特分配方法

arXiv cs.LG ↗ · 2天前缓存

提出Block-GTQ，一种感知RoPE的KV缓存量化比特分配方法，通过为高能量RoPE块分配更多比特，提升长上下文性能与内存效率。

0 人收藏 0 人点赞

#kv-cache

无需妥协的遗忘：固定预算下流式KV-Cache驱逐的Nexus采样

arXiv cs.LG ↗ · 2天前缓存

介绍了Nexus Sampling，一种无需训练的KV-cache驱逐方法，采用加权蓄水池采样代替确定性top-k选择，在固定内存预算下提升了长上下文LLM推理性能，在80%驱逐率下达到与密集注意力相匹配的性能。

0 人收藏 0 人点赞

#kv-cache

@techNmak: 你的LLM推理正在消耗50%的计算资源在已经完成的工作上。如果你正在运行RAG或多轮对话，……

X AI KOLs Timeline ↗ · 2天前缓存

LMCache是一个开源库，它使KV缓存持久化并可在请求之间共享，消除了RAG和多轮对话工作负载中的重复计算，实现了高达15倍的吞吐量提升和3-10倍的首令牌时间减少。

0 人收藏 0 人点赞

#kv-cache

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA ↗ · 3天前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞

#kv-cache

@kazukifujii: 这篇vLLM博客文章以非常清晰和图示化的方式解释了强化学习中的权重更新和KV缓存重计算，还涵盖了…

X AI KOLs Timeline ↗ · 3天前缓存

本文解释了vLLM用于强化学习的权重同步API，涵盖了它如何促进RL训练中的权重更新和KV缓存重计算，重点关注降低训练框架的复杂性。

0 人收藏 0 人点赞

#kv-cache

@AdinaYakup: Unlimited-OCR——@PaddlePaddle的新OCR模型，能够单次处理数百页文档，同时保持速度稳定…

X AI KOLs Following ↗ · 4天前缓存

PaddlePaddle发布了Unlimited-OCR，一种新的OCR模型，使用参考滑动窗口注意力（R-SWA）在解码过程中保持恒定的KV缓存，在OmniDocBench上达到了93%的准确率，相比之前的方法提升了6%。

0 人收藏 0 人点赞

#kv-cache

Unlimited OCR 的工作原理

Hugging Face Daily Papers ↗ · 4天前缓存

Unlimited OCR 引入了 Reference Sliding Window Attention，以消除长序列 OCR 任务中不断增长的内存消耗，从而能够在单次前向传播中高效转录多页文档。

0 人收藏 0 人点赞

#kv-cache

大规模LLM推理开放手册（GPU内部机制、KV缓存、批处理、vLLM/SGLang/TensorRT-LLM）[P]

Reddit r/MachineLearning ↗ · 6天前

一本正在编写中的开放手册，解释LLM推理内部机制，包括GPU内存层次结构、KV缓存、批处理以及vLLM和TensorRT-LLM等流行推理引擎。

0 人收藏 0 人点赞

#kv-cache

@FakeMaidenMaker: 炸裂！这个开源项目能给自部署的大模型推理大幅提速、还省显存 GitHub 狂揽 9.2K star，已经加入 PyTorch 基金会，NVIDIA 的 Dynamo 也集成了它。 GitHub：https://github.com/LMC…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

LMCache 是一个 KV 缓存管理层，通过缓存并复用 KV cache 来加速大模型推理、降低显存消耗，已获 9.2K star 并加入 PyTorch 基金会，被 NVIDIA Dynamo 集成。

0 人收藏 0 人点赞

#kv-cache

在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大

Reddit r/LocalLLaMA ↗ · 2026-06-18

在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率，使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。

0 人收藏 0 人点赞

#kv-cache

局部与全局注意力的双维度

arXiv cs.CL ↗ · 2026-06-18 缓存

提出距离自适应表示（DAR），该方法对远距离token降低键值维度，同时保留附近token的全维度，在不损失性能的前提下提升KV缓存效率。

0 人收藏 0 人点赞

#kv-cache

探究隐式潜在轨迹偏移：通过长篇幅连贯上下文绕过对齐

Reddit r/ArtificialInteligence ↗ · 2026-06-17

一项实证研究，研究长篇幅、语义密集的良性文本如何偏移模型的潜在空间轨迹，稀释初始系统提示，并绕过训练后对齐约束——如在闭源和开源模型中所观察到的那样。

0 人收藏 0 人点赞

#kv-cache

@amitiitbhu：新文章：vLLM 是如何工作的？请在此阅读：https://outcomeschool.com/blog/how-does-vllm-work…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

一篇详细的博客文章，解释了 vLLM 的工作原理，包括 PagedAttention、KV 缓存管理和连续批处理，以实现高效的 LLM 服务。

1 人收藏 1 人点赞

#kv-cache

模型在预填充阶段做笔记：KV缓存可编辑且可组合

arXiv cs.LG ↗ · 2026-06-17 缓存

本文提出，Transformer中的KV缓存充当了记忆化结论的笔记本，使得无需完全重计算即可进行精确编辑和组合。该方法在保持跨模型规模决策等价性的同时，实现了显著的延迟降低。

0 人收藏 0 人点赞

#kv-cache

GateGPT: 在80 MHz的FPGA上实现每秒56k tokens的Transformer（KV缓存）

Hacker News Top ↗ · 2026-06-16 缓存

一个自定义的FPGA实现，在80 MHz下运行带KV缓存的Transformer，实现每秒56,000 tokens，在微型LCD上运行microGPT。

0 人收藏 0 人点赞

kv-cache

提交意见反馈