大模型推理的二维早退优化

arXiv cs.CL 2026/04/22 04:00 论文

摘要

作者提出一种二维早退方法，同时裁剪层与输入句子，在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。

arXiv:2604.18592v1 公告类型：新摘要：我们提出一种二维（2D）早退策略，在大语言模型的分类任务中协同层级别与句子级别的退出。通过逐句增量处理输入，并渐进激活更深的层，我们的方法实现了乘法级的计算节省，优于单独优化任一维度。在四个前沿 LLM（Llama 3.1、Llama 3.2、Gemma、Qwen；3B–8B 参数量）与三个情感分类数据集上的实验表明，相比最优层早退，在简单任务上 vanilla 模型可再提速 1.4–2.3×，复杂多类问题则优雅降级。微调会削弱但并未消除这一优势。该方法与模型无关，仅需轻量级分类适配器，且与量化、剪枝等互补加速手段正交。实验结果显示，当语义信息沿输入结构可预测累积时，二维早退策略表现优异，暗示其可拓展至情感分类之外的序列处理任务。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:29

# 大语言模型推理的二维早退优化  
来源：https://arxiv.org/html/2604.18592  
Jan Hůla₁ David Adamczyk₁ Tomáš Filip₁ Martin Pavlíček₁ Petr Sosík₁,₂  
1 奥斯特拉发大学模糊建模研究与应用中心，捷克 70200 奥斯特拉发  
2 奥帕瓦西里西亚大学哲学院计算机科学研究所，捷克 74601 奥帕瓦  
{jan.hula, david.adamczyk, tomas.filip, martin.pavlicek, petr.sosik}@osu.cz  

###### 摘要  
我们提出一种二维（2D）早退策略，在大语言模型分类任务中同时协调“层维度”与“句维度”的提前退出。通过逐句增量输入并同步逐层加深计算，该方法在两类独立优化之上实现乘法级加速。在 4 个主流 LLM（Llama 3.1、Llama 3.2、Gemma、Qwen；3B–8B 参数）与 3 个情感分类数据集上的实验显示，相比最优层早退， vanilla 模型在简单任务上再提速 1.4–2.3×，复杂多类任务优雅降级。微调会削弱但无法消除这一优势。方法模型无关，仅需轻量分类适配器，且与量化、剪枝等正交。实验表明，当语义信息沿输入结构可预测累积时，2D 早退效果最佳，可推广至更多序列处理任务。  

关键词：大语言模型，推理优化，早退，输入裁剪  

## 1 引言  
大语言模型（LLM）以卓越能力革新 NLP，却伴随巨额算力、内存与能耗，尤其在推理阶段。对高吞吐但相对简单的分类任务，部署完整 LLM 造成巨大浪费。早退策略通过“中间层置信即停”成为热门方向。本文提出二维（2D）早退：同时优化“层”与“句”两个退出维度。直觉是，许多分类任务只需文本前半即可判定类别。图 1 展示随句数与层数增加，正确概率的演化。我们以句为语义单元，逐句喂入模型，并同步逐层加深计算，形成图 2 所示的“矩形计算块”。一旦累积置信超阈值即停，显著快于纯层早退。贡献如下：  
- • 方法：将层早停与句裁剪整合为协同过程，实现乘法级而非加法级加速，不牺牲精度。  
- • 评测：在 4 个 SOTA LLM（Llama-3.1-8B、Llama-3.2-3B、Gemma-3n-E4B、Qwen2.5-7B）与 3 个情感数据集上，vanilla 模型在简单任务再提速 1.4–2.3×，复杂任务优雅降级。  
- • 分析：探讨微调影响、超参指南及 2D 策略适用条件。  

Gemma-3n-E4B vanilla（仅适配器训练）  
见题注  
Gemma-3n-E4B 微调后  
见题注  
图 1：Gemma-3n-E4B vanilla（上）与微调（下）在 MMS 数据集上逐句逐层准确率热力图，共 7100 条 10 句样本。  

## 2 背景  
传统 LLM 推理加速手段包括剪枝、量化、蒸馏，均属静态压缩，推理结构固定，虽有效但易掉点且迁移性差。动态推理则在运行时调整算力，如级联模型、Matryoshka 嵌套模型、MatFormer 等。  

### 2.1 早退策略  
早退通过“退出触发器”在中间层停止计算，与剪枝/量化正交，无需改架构。  
- 基于置信度：DeeBERT、FastBERT、PABEE 等附辅助分类器，熵或校准置信超阈值即停，可获 33–12× 加速。  
- 学习式策略：ConsistEE、CAT 等用 RL 或 SVM 学习退出时机，层深减少双位数百分比。  
- 架构级：LayerSkip 在训练时逐层 dropout，推理可跳层；GREEN-CODE 在代码生成场景节能 23–50%。  
- token/序列级：CALM、DEER、NEAT 等按 token 或神经元动态停，CoT 长度减少 19–80%。  

本文 2D 早退与 CALM 等同持“非均等计算”直觉，但改在“句”这一自然语义边界操作，避免 token 级缺失隐状态与 KV-Cache 麻烦，实现乘法级节省。  

## 3 方法  
核心思想：同步在“层”与“句”两维早退，以句为最小语义单元。样本按附录 A 算法分句。句嵌入取句内所有 token 嵌入的均值。每层输出接轻量分类适配器（两层 FC：Linear→ReLU→Linear→Softmax）。  

### 3.1 训练  
损失函数鼓励中间层对完整及部分输入均正确。设模型共 L 层，样本 x 含 m 句，ei,k(x) 为第 i 层第 k 句嵌入，前缀嵌入 pei,j(x) 为前 j 句平均。  
训练分两种：  
- 仅适配器：冻结模型，仅训练各层分类器。  
- 全模型微调：更新全部参数。  

（后续公式与实现细节略，详见原文。）

大模型推理的二维早退优化

相似文章

River-LLM：基于 KV 共享的大模型无感早退方案

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

通过令牌剪枝优化韩语中心的大语言模型

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

提交意见反馈