大模型推理的二维早退优化
摘要
作者提出一种二维早退方法,同时裁剪层与输入句子,在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。
arXiv:2604.18592v1 公告类型:新
摘要:我们提出一种二维(2D)早退策略,在大语言模型的分类任务中协同层级别与句子级别的退出。通过逐句增量处理输入,并渐进激活更深的层,我们的方法实现了乘法级的计算节省,优于单独优化任一维度。在四个前沿 LLM(Llama 3.1、Llama 3.2、Gemma、Qwen;3B–8B 参数量)与三个情感分类数据集上的实验表明,相比最优层早退,在简单任务上 vanilla 模型可再提速 1.4–2.3×,复杂多类问题则优雅降级。微调会削弱但并未消除这一优势。该方法与模型无关,仅需轻量级分类适配器,且与量化、剪枝等互补加速手段正交。实验结果显示,当语义信息沿输入结构可预测累积时,二维早退策略表现优异,暗示其可拓展至情感分类之外的序列处理任务。
查看缓存全文
缓存时间: 2026/04/22 08:29
# 大语言模型推理的二维早退优化
来源:https://arxiv.org/html/2604.18592
Jan Hůla₁ David Adamczyk₁ Tomáš Filip₁ Martin Pavlíček₁ Petr Sosík₁,₂
1 奥斯特拉发大学模糊建模研究与应用中心,捷克 70200 奥斯特拉发
2 奥帕瓦西里西亚大学哲学院计算机科学研究所,捷克 74601 奥帕瓦
{jan.hula, david.adamczyk, tomas.filip, martin.pavlicek, petr.sosik}@osu.cz
###### 摘要
我们提出一种二维(2D)早退策略,在大语言模型分类任务中同时协调“层维度”与“句维度”的提前退出。通过逐句增量输入并同步逐层加深计算,该方法在两类独立优化之上实现乘法级加速。在 4 个主流 LLM(Llama 3.1、Llama 3.2、Gemma、Qwen;3B–8B 参数)与 3 个情感分类数据集上的实验显示,相比最优层早退, vanilla 模型在简单任务上再提速 1.4–2.3×,复杂多类任务优雅降级。微调会削弱但无法消除这一优势。方法模型无关,仅需轻量分类适配器,且与量化、剪枝等正交。实验表明,当语义信息沿输入结构可预测累积时,2D 早退效果最佳,可推广至更多序列处理任务。
关键词:大语言模型,推理优化,早退,输入裁剪
## 1 引言
大语言模型(LLM)以卓越能力革新 NLP,却伴随巨额算力、内存与能耗,尤其在推理阶段。对高吞吐但相对简单的分类任务,部署完整 LLM 造成巨大浪费。早退策略通过“中间层置信即停”成为热门方向。本文提出二维(2D)早退:同时优化“层”与“句”两个退出维度。直觉是,许多分类任务只需文本前半即可判定类别。图 1 展示随句数与层数增加,正确概率的演化。我们以句为语义单元,逐句喂入模型,并同步逐层加深计算,形成图 2 所示的“矩形计算块”。一旦累积置信超阈值即停,显著快于纯层早退。贡献如下:
- • 方法:将层早停与句裁剪整合为协同过程,实现乘法级而非加法级加速,不牺牲精度。
- • 评测:在 4 个 SOTA LLM(Llama-3.1-8B、Llama-3.2-3B、Gemma-3n-E4B、Qwen2.5-7B)与 3 个情感数据集上,vanilla 模型在简单任务再提速 1.4–2.3×,复杂任务优雅降级。
- • 分析:探讨微调影响、超参指南及 2D 策略适用条件。
Gemma-3n-E4B vanilla(仅适配器训练)
见题注
Gemma-3n-E4B 微调后
见题注
图 1:Gemma-3n-E4B vanilla(上)与微调(下)在 MMS 数据集上逐句逐层准确率热力图,共 7100 条 10 句样本。
## 2 背景
传统 LLM 推理加速手段包括剪枝、量化、蒸馏,均属静态压缩,推理结构固定,虽有效但易掉点且迁移性差。动态推理则在运行时调整算力,如级联模型、Matryoshka 嵌套模型、MatFormer 等。
### 2.1 早退策略
早退通过“退出触发器”在中间层停止计算,与剪枝/量化正交,无需改架构。
- 基于置信度:DeeBERT、FastBERT、PABEE 等附辅助分类器,熵或校准置信超阈值即停,可获 33–12× 加速。
- 学习式策略:ConsistEE、CAT 等用 RL 或 SVM 学习退出时机,层深减少双位数百分比。
- 架构级:LayerSkip 在训练时逐层 dropout,推理可跳层;GREEN-CODE 在代码生成场景节能 23–50%。
- token/序列级:CALM、DEER、NEAT 等按 token 或神经元动态停,CoT 长度减少 19–80%。
本文 2D 早退与 CALM 等同持“非均等计算”直觉,但改在“句”这一自然语义边界操作,避免 token 级缺失隐状态与 KV-Cache 麻烦,实现乘法级节省。
## 3 方法
核心思想:同步在“层”与“句”两维早退,以句为最小语义单元。样本按附录 A 算法分句。句嵌入取句内所有 token 嵌入的均值。每层输出接轻量分类适配器(两层 FC:Linear→ReLU→Linear→Softmax)。
### 3.1 训练
损失函数鼓励中间层对完整及部分输入均正确。设模型共 L 层,样本 x 含 m 句,ei,k(x) 为第 i 层第 k 句嵌入,前缀嵌入 pei,j(x) 为前 j 句平均。
训练分两种:
- 仅适配器:冻结模型,仅训练各层分类器。
- 全模型微调:更新全部参数。
(后续公式与实现细节略,详见原文。)相似文章
River-LLM:基于 KV 共享的大模型无感早退方案
River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。