River-LLM:基于 KV 共享的大模型无感早退方案

Hugging Face Daily Papers 论文

摘要

River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。

大语言模型(LLM)在各领域表现卓越,却受限于高昂推理延迟。早退(Early Exit)通过动态跳过冗余层加速推理,成为热门方向。然而,在 decoder-only 架构中,被跳层无法为后续 token 提供历史 KV 状态,导致“KV 缓存缺失”瓶颈。既有方案如重算或掩码,要么带来显著延迟,要么精度骤降,难以将理论层数缩减转化为实际墙钟加速。 本文提出 River-LLM,一个无需训练的 token 级无缝早退框架。River-LLM 引入轻量级“KV-Shared Exit River”,在早退过程中自然生成并保存主干缺失的 KV 缓存,省去昂贵恢复操作。同时,利用 decoder 块内状态转移相似度预测累积 KV 误差,指导精准退出决策。 在数学推理与代码生成任务上的大量实验表明,River-LLM 可实现 1.71–2.16 倍实际加速,同时保持高生成质量。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 01:58

论文页面 - River-LLM:基于 KV 共享的大语言模型无感早退

来源:https://huggingface.co/papers/2604.18396

摘要

River-LLM 通过 KV 共享机制,在仅解码器 LLM 中实现 token 级早退,既保留历史状态又零延迟开销。

大语言模型(LLM)在诸多领域表现卓越,却受限于高推理延迟。Early Exit 通过动态跳过冗余层加速推理,但在仅解码器架构中,因“KV 缓存缺失”问题效率骤降:被跳过的层无法为后续 token 提供必要历史状态。现有方案如重算或掩码,要么带来显著延迟,要么精度骤降,难以把理论层数缩减转化为真实墙钟加速。本文提出 River-LLM,一个无需训练的框架,实现 token 级无感早退。River-LLM 引入轻量级“KV 共享退出通道”,在退出过程中自然生成并保存主干缺失的 KV 缓存,省去昂贵恢复操作。此外,我们利用解码块内的状态转移相似性预测累积 KV 误差,指导精准退出决策。在数学推理与代码生成任务上的大量实验表明,River-LLM 在保持高生成质量的同时,实现 1.71–2.16 倍的实际加速。

查看 arXiv 页面查看 PDF添加到收藏

在智能体中获取本文:

hf papers read 2604.18396

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型关联本文

在模型 README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。

引用本文的数据集 0

暂无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。

收录本文的合辑 0

暂无合辑收录本文

新建合辑 并添加本文,即可在此页面显示链接。

相似文章

大模型推理的二维早退优化

arXiv cs.CL

作者提出一种二维早退方法,同时裁剪层与输入句子,在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。