River-LLM：基于 KV 共享的大模型无感早退方案

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

River-LLM 提出一种无需训练的 decoder-only 大模型早退框架，通过 KV 共享消除 KV-cache 缺口，在无损质量的前提下实现 1.71–2.16 倍推理加速。

大语言模型（LLM）在各领域表现卓越，却受限于高昂推理延迟。早退（Early Exit）通过动态跳过冗余层加速推理，成为热门方向。然而，在 decoder-only 架构中，被跳层无法为后续 token 提供历史 KV 状态，导致“KV 缓存缺失”瓶颈。既有方案如重算或掩码，要么带来显著延迟，要么精度骤降，难以将理论层数缩减转化为实际墙钟加速。本文提出 River-LLM，一个无需训练的 token 级无缝早退框架。River-LLM 引入轻量级“KV-Shared Exit River”，在早退过程中自然生成并保存主干缺失的 KV 缓存，省去昂贵恢复操作。同时，利用 decoder 块内状态转移相似度预测累积 KV 误差，指导精准退出决策。在数学推理与代码生成任务上的大量实验表明，River-LLM 可实现 1.71–2.16 倍实际加速，同时保持高生成质量。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 01:58

论文页面 - River-LLM：基于 KV 共享的大语言模型无感早退

来源：https://huggingface.co/papers/2604.18396

摘要

River-LLM 通过 KV 共享机制，在仅解码器 LLM 中实现 token 级早退，既保留历史状态又零延迟开销。

大语言模型（LLM）在诸多领域表现卓越，却受限于高推理延迟。Early Exit 通过动态跳过冗余层加速推理，但在仅解码器架构中，因“KV 缓存缺失”问题效率骤降：被跳过的层无法为后续 token 提供必要历史状态。现有方案如重算或掩码，要么带来显著延迟，要么精度骤降，难以把理论层数缩减转化为真实墙钟加速。本文提出 River-LLM，一个无需训练的框架，实现 token 级无感早退。River-LLM 引入轻量级“KV 共享退出通道”，在退出过程中自然生成并保存主干缺失的 KV 缓存，省去昂贵恢复操作。此外，我们利用解码块内的状态转移相似性预测累积 KV 误差，指导精准退出决策。在数学推理与代码生成任务上的大量实验表明，River-LLM 在保持高生成质量的同时，实现 1.71–2.16 倍的实际加速。

查看 arXiv 页面查看 PDF 添加到收藏

在智能体中获取本文：

hf papers read 2604.18396

未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型关联本文

在模型 README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。

引用本文的数据集 0

暂无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2604.18396 即可在此页面显示链接。

收录本文的合辑 0

暂无合辑收录本文

新建合辑并添加本文，即可在此页面显示链接。

River-LLM：基于 KV 共享的大模型无感早退方案

论文页面 - River-LLM：基于 KV 共享的大语言模型无感早退

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

收录本文的合辑 0

相似文章

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

@pallavishekhar_: 大语言模型中的 KV Cache，阅读链接：https://outcomeschool.com/blog/kv-cache-in-llms…

大模型推理的二维早退优化

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

JumpLoRA：大语言模型持续学习的稀疏适配器

提交意见反馈