标签
一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。
本文介绍了一种固定契约诊断工具,用于分析KV缓存压缩方法在长上下文LLM推理中成功或失败的原因。文章确定了三种故障模式——遗漏证据、对无关token进行评分以及破坏相关证据——并在LongBench和NeedleBench上对这些模式进行了评估。
本文介绍了 ReST-KV,一种用于大型语言模型的新型鲁棒 KV Cache 驱逐方法。该方法利用逐层输出重构与时空平滑技术来提升效率,显著降低了解码延迟,并在 LongBench 和 RULER 等长上下文基准测试中超越了现有的最先进基线模型。
本地运行多智能体 AI 工作流的硬件需求对比,重点探讨显存(VRAM)与 KV Cache 的瓶颈限制。
本文介绍了 Louver,这是一种用于 KV 缓存检索的新型索引结构。它将稀疏注意力重新表述为范围搜索问题,保证零假阴性,并且比现有方法更高效。
本文介绍了 WiCER,这是一种将领域知识编译到 LLM Wiki 系统中的迭代算法,旨在最大限度地减少知识蒸馏过程中的信息丢失和灾难性失败率。研究表明,与盲编译方法相比,该方法通过更好地保留关键事实,改进了全上下文 KV 缓存推理的效果。
本文提出了 LKV,这是一种通过端到端学习基于 Attention Head 的预算分配与 Token 选择策略来优化大语言模型 KV 缓存淘汰的方法,在实现高压缩率的同时取得了最先进的性能表现。
本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。
作者开源了一种名为 catalyst-brain 的新型 KV-cache 解决方案,声称可大幅降低本地模型对 RAM 的需求,并可能实现无限上下文窗口。
Luce DFlash 通过在 SWA 层的草稿图中实现每层 K/V 截断,实现了 10-15% 的速度提升。
本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法,通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力,同时显著降低内存占用。
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。
Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
本文介绍了 SPEED,一种层非对称 KV 可见性策略,通过仅在预填阶段的下层处理提示 token,同时在解码阶段保持全深度注意力,从而降低长上下文推理的成本。
IceCache 通过“动态连续索引”(DCI)技术,在超长生成任务中将 GPU 内存占用压到恒定,且精度损失极小。
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
社区讨论:Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache,还是仍在等待实现。
独立研究者发布了 Spiral,这是一款专为 Apple Silicon 设计、利用自定义融合 Metal 内核将大语言模型(LLM)压缩至 INT3、KV 缓存压缩至 INT2 的工具,目前已提供 Qwen-7B 预览版。