kv-cache

标签

Cards List
#kv-cache

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline · 4小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞
#kv-cache

价值感知KV缓存淘汰何时有效?一种针对非单调缓存压缩的固定契约诊断方法

arXiv cs.LG · 昨天 缓存

本文介绍了一种固定契约诊断工具,用于分析KV缓存压缩方法在长上下文LLM推理中成功或失败的原因。文章确定了三种故障模式——遗漏证据、对无关token进行评分以及破坏相关证据——并在LongBench和NeedleBench上对这些模式进行了评估。

0 人收藏 0 人点赞
#kv-cache

ReST-KV:基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法

arXiv cs.CL · 昨天 缓存

本文介绍了 ReST-KV,一种用于大型语言模型的新型鲁棒 KV Cache 驱逐方法。该方法利用逐层输出重构与时空平滑技术来提升效率,显著降低了解码延迟,并在 LongBench 和 RULER 等长上下文基准测试中超越了现有的最先进基线模型。

0 人收藏 0 人点赞
#kv-cache

为什么现有硬件难以应对 2026 年多智能体工作流(Mac Studio vs. RTX 5090)

Reddit r/ArtificialInteligence · 2天前

本地运行多智能体 AI 工作流的硬件需求对比,重点探讨显存(VRAM)与 KV Cache 的瓶颈限制。

0 人收藏 0 人点赞
#kv-cache

将稀疏注意力作为范围搜索问题:迈向推理高效的 KV 缓存索引

arXiv cs.LG · 2天前 缓存

本文介绍了 Louver,这是一种用于 KV 缓存检索的新型索引结构。它将稀疏注意力重新表述为范围搜索问题,保证零假阴性,并且比现有方法更高效。

0 人收藏 0 人点赞
#kv-cache

WiCER:面向 LLM Wiki 系统的 Wiki 记忆编译、评估与精炼迭代式知识编译

arXiv cs.CL · 2天前 缓存

本文介绍了 WiCER,这是一种将领域知识编译到 LLM Wiki 系统中的迭代算法,旨在最大限度地减少知识蒸馏过程中的信息丢失和灾难性失败率。研究表明,与盲编译方法相比,该方法通过更好地保留关键事实,改进了全上下文 KV 缓存推理的效果。

0 人收藏 0 人点赞
#kv-cache

LKV:通过端到端学习多头预算与 Token 选择优化大模型 KV 缓存淘汰机制

arXiv cs.LG · 2天前 缓存

本文提出了 LKV,这是一种通过端到端学习基于 Attention Head 的预算分配与 Token 选择策略来优化大语言模型 KV 缓存淘汰的方法,在实现高压缩率的同时取得了最先进的性能表现。

0 人收藏 0 人点赞
#kv-cache

RateQuant:基于率失真理论的优化混合精度KV Cache量化

arXiv cs.LG · 2天前 缓存

本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。

0 人收藏 0 人点赞
#kv-cache

我解决了 KV-cache 问题

Reddit r/AI_Agents · 2天前

作者开源了一种名为 catalyst-brain 的新型 KV-cache 解决方案,声称可大幅降低本地模型对 RAM 的需求,并可能实现无限上下文窗口。

0 人收藏 0 人点赞
#kv-cache

@davideciffa:非常感谢 @csujun,Luce DFlash 现在速度提升了 10-15%,通过在 SWA 层的草稿图中实现每层 K/V 截断…

X AI KOLs Timeline · 3天前 缓存

Luce DFlash 通过在 SWA 层的草稿图中实现每层 K/V 截断,实现了 10-15% 的速度提升。

0 人收藏 0 人点赞
#kv-cache

让每个 Token 都物尽其用:通过 KV 缓存淘汰提升长上下文性能

Hugging Face Daily Papers · 3天前 缓存

本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法,通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力,同时显著降低内存占用。

0 人收藏 0 人点赞
#kv-cache

@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…

X AI KOLs Timeline · 3天前 缓存

本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。

0 人收藏 0 人点赞
#kv-cache

@ickma2311: 高效AI 第12讲:Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理,还深入讲解其底层构建模块……

X AI KOLs Timeline · 4天前 缓存

一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞
#kv-cache

@Modular:HTTP路由问题已经解决了多年。然后大语言模型出现了。它们的后端不是可互换的…

X AI KOLs Following · 4天前 缓存

Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。

0 人收藏 0 人点赞
#kv-cache

内存高效型循环Transformer:循环语言模型中的计算与内存解耦

Hugging Face Daily Papers · 5天前 缓存

提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。

0 人收藏 0 人点赞
#kv-cache

浅层预填,深层解码:通过层非对称 KV 可见性实现高效的长上下文推理

Hugging Face Daily Papers · 6天前 缓存

本文介绍了 SPEED,一种层非对称 KV 可见性策略,通过仅在预填阶段的下层处理提示 token,同时在解码阶段保持全深度注意力,从而降低长上下文推理的成本。

0 人收藏 0 人点赞
#kv-cache

@KL_Div:随着生成长度增加,LLM 占用的 GPU 内存持续攀升。能否在几乎不牺牲精度的前提下,让 GPU 内存占用保持恒定?

X AI KOLs Timeline · 2026-04-23 缓存

IceCache 通过“动态连续索引”(DCI)技术,在超长生成任务中将 GPU 内存占用压到恒定,且精度损失极小。

0 人收藏 0 人点赞
#kv-cache

TTKV:面向长上下文LLM推理的时间分层KV缓存

arXiv cs.CL · 2026-04-23 缓存

TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。

0 人收藏 0 人点赞
#kv-cache

我们现在就能在 llama-server 里用 Google 的 TurboQuant(TQ)压缩 KV Cache 吗?还是还得等 PR?

Reddit r/LocalLLaMA · 2026-04-22

社区讨论:Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache,还是仍在等待实现。

0 人收藏 0 人点赞
#kv-cache

INT3 压缩与融合 Metal 内核 [R]

Reddit r/MachineLearning · 2026-04-22

独立研究者发布了 Spiral,这是一款专为 Apple Silicon 设计、利用自定义融合 Metal 内核将大语言模型(LLM)压缩至 INT3、KV 缓存压缩至 INT2 的工具,目前已提供 Qwen-7B 预览版。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈