kv-cache

#kv-cache

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline ↗ · 4小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术，比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞

#kv-cache

价值感知KV缓存淘汰何时有效？一种针对非单调缓存压缩的固定契约诊断方法

arXiv cs.LG ↗ · 昨天缓存

本文介绍了一种固定契约诊断工具，用于分析KV缓存压缩方法在长上下文LLM推理中成功或失败的原因。文章确定了三种故障模式——遗漏证据、对无关token进行评分以及破坏相关证据——并在LongBench和NeedleBench上对这些模式进行了评估。

0 人收藏 0 人点赞

#kv-cache

ReST-KV：基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 ReST-KV，一种用于大型语言模型的新型鲁棒 KV Cache 驱逐方法。该方法利用逐层输出重构与时空平滑技术来提升效率，显著降低了解码延迟，并在 LongBench 和 RULER 等长上下文基准测试中超越了现有的最先进基线模型。

0 人收藏 0 人点赞

#kv-cache

为什么现有硬件难以应对 2026 年多智能体工作流（Mac Studio vs. RTX 5090）

Reddit r/ArtificialInteligence ↗ · 2天前

本地运行多智能体 AI 工作流的硬件需求对比，重点探讨显存（VRAM）与 KV Cache 的瓶颈限制。

0 人收藏 0 人点赞

#kv-cache

将稀疏注意力作为范围搜索问题：迈向推理高效的 KV 缓存索引

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 Louver，这是一种用于 KV 缓存检索的新型索引结构。它将稀疏注意力重新表述为范围搜索问题，保证零假阴性，并且比现有方法更高效。

0 人收藏 0 人点赞

#kv-cache

WiCER：面向 LLM Wiki 系统的 Wiki 记忆编译、评估与精炼迭代式知识编译

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 WiCER，这是一种将领域知识编译到 LLM Wiki 系统中的迭代算法，旨在最大限度地减少知识蒸馏过程中的信息丢失和灾难性失败率。研究表明，与盲编译方法相比，该方法通过更好地保留关键事实，改进了全上下文 KV 缓存推理的效果。

0 人收藏 0 人点赞

#kv-cache

LKV：通过端到端学习多头预算与 Token 选择优化大模型 KV 缓存淘汰机制

arXiv cs.LG ↗ · 2天前缓存

本文提出了 LKV，这是一种通过端到端学习基于 Attention Head 的预算分配与 Token 选择策略来优化大语言模型 KV 缓存淘汰的方法，在实现高压缩率的同时取得了最先进的性能表现。

0 人收藏 0 人点赞

#kv-cache

RateQuant：基于率失真理论的优化混合精度KV Cache量化

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 RateQuant，一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题，与 KIVI 和 QuaRot 等现有方法相比，在极低的校准开销下显著降低了困惑度。

0 人收藏 0 人点赞

#kv-cache

我解决了 KV-cache 问题

Reddit r/AI_Agents ↗ · 2天前

作者开源了一种名为 catalyst-brain 的新型 KV-cache 解决方案，声称可大幅降低本地模型对 RAM 的需求，并可能实现无限上下文窗口。

0 人收藏 0 人点赞

#kv-cache

@davideciffa：非常感谢 @csujun，Luce DFlash 现在速度提升了 10-15%，通过在 SWA 层的草稿图中实现每层 K/V 截断…

X AI KOLs Timeline ↗ · 3天前缓存

Luce DFlash 通过在 SWA 层的草稿图中实现每层 K/V 截断，实现了 10-15% 的速度提升。

0 人收藏 0 人点赞

#kv-cache

让每个 Token 都物尽其用：通过 KV 缓存淘汰提升长上下文性能

Hugging Face Daily Papers ↗ · 3天前缓存

本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法，通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力，同时显著降低内存占用。

0 人收藏 0 人点赞

#kv-cache

@pallavishekhar_: 大语言模型中的 KV Cache，阅读链接：https://outcomeschool.com/blog/kv-cache-in-llms…

X AI KOLs Timeline ↗ · 3天前缓存

本文解释了大语言模型中 KV Cache 的概念，详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算，从而优化文本生成的原理。

0 人收藏 0 人点赞

#kv-cache

@ickma2311: 高效AI 第12讲：Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理，还深入讲解其底层构建模块……

X AI KOLs Timeline ↗ · 4天前缓存

一门高效AI课程的第12讲笔记，涵盖 Transformer 与 LLM 基础知识，包括多头注意力机制、位置编码、KV 缓存，以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞

#kv-cache

@Modular：HTTP路由问题已经解决了多年。然后大语言模型出现了。它们的后端不是可互换的…

X AI KOLs Following ↗ · 4天前缓存

Modular发布了一篇博客文章，解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod（包括KV缓存、专用的预填充/解码后端以及对话级路由），这些是传统无状态路由算法无法解决的。

0 人收藏 0 人点赞

#kv-cache

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

Hugging Face Daily Papers ↗ · 5天前缓存

提出内存高效型循环Transformer（MELT），这是一种新型循环大语言模型架构，通过跨循环共享单一KV缓存，并结合插值过渡与注意力对齐蒸馏的分块训练方法，实现了推理深度与内存消耗的解耦。

0 人收藏 0 人点赞

#kv-cache

浅层预填，深层解码：通过层非对称 KV 可见性实现高效的长上下文推理

Hugging Face Daily Papers ↗ · 6天前缓存

本文介绍了 SPEED，一种层非对称 KV 可见性策略，通过仅在预填阶段的下层处理提示 token，同时在解码阶段保持全深度注意力，从而降低长上下文推理的成本。

0 人收藏 0 人点赞

#kv-cache

@KL_Div：随着生成长度增加，LLM 占用的 GPU 内存持续攀升。能否在几乎不牺牲精度的前提下，让 GPU 内存占用保持恒定？

X AI KOLs Timeline ↗ · 2026-04-23 缓存

IceCache 通过“动态连续索引”（DCI）技术，在超长生成任务中将 GPU 内存占用压到恒定，且精度损失极小。

0 人收藏 0 人点赞

#kv-cache

TTKV：面向长上下文LLM推理的时间分层KV缓存

arXiv cs.CL ↗ · 2026-04-23 缓存

TTKV借鉴人类记忆机制，提出时间分层KV缓存，在128K上下文LLM推理中降低76%延迟、吞吐量翻倍，跨层流量减少5.94倍。

0 人收藏 0 人点赞

#kv-cache

我们现在就能在 llama-server 里用 Google 的 TurboQuant（TQ）压缩 KV Cache 吗？还是还得等 PR？

Reddit r/LocalLLaMA ↗ · 2026-04-22

社区讨论：Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache，还是仍在等待实现。

0 人收藏 0 人点赞

#kv-cache

INT3 压缩与融合 Metal 内核 [R]

Reddit r/MachineLearning ↗ · 2026-04-22

独立研究者发布了 Spiral，这是一款专为 Apple Silicon 设计、利用自定义融合 Metal 内核将大语言模型（LLM）压缩至 INT3、KV 缓存压缩至 INT2 的工具，目前已提供 Qwen-7B 预览版。

0 人收藏 0 人点赞

kv-cache

提交意见反馈