River-LLM:基于 KV 共享的大模型无感早退方案
摘要
River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。
查看缓存全文
缓存时间: 2026/04/22 01:58
论文页面 - River-LLM:基于 KV 共享的大语言模型无感早退
来源:https://huggingface.co/papers/2604.18396
摘要
River-LLM 通过 KV 共享机制,在仅解码器 LLM 中实现 token 级早退,既保留历史状态又零延迟开销。
大语言模型(LLM)在诸多领域表现卓越,却受限于高推理延迟。Early Exit 通过动态跳过冗余层加速推理,但在仅解码器架构中,因“KV 缓存缺失”问题效率骤降:被跳过的层无法为后续 token 提供必要历史状态。现有方案如重算或掩码,要么带来显著延迟,要么精度骤降,难以把理论层数缩减转化为真实墙钟加速。本文提出 River-LLM,一个无需训练的框架,实现 token 级无感早退。River-LLM 引入轻量级“KV 共享退出通道”,在退出过程中自然生成并保存主干缺失的 KV 缓存,省去昂贵恢复操作。此外,我们利用解码块内的状态转移相似性预测累积 KV 误差,指导精准退出决策。在数学推理与代码生成任务上的大量实验表明,River-LLM 在保持高生成质量的同时,实现 1.71–2.16 倍的实际加速。
在智能体中获取本文:
hf papers read 2604.18396
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型关联本文
在模型 README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。
引用本文的数据集 0
暂无数据集关联本文
在数据集 README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。
引用本文的 Spaces 0
暂无 Space 关联本文
在 Space README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。
收录本文的合辑 0
暂无合辑收录本文
新建合辑 并添加本文,即可在此页面显示链接。
相似文章
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
大模型推理的二维早退优化
作者提出一种二维早退方法,同时裁剪层与输入句子,在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。