通过蒸馏和量化扩展Apertus LLM系列

arXiv cs.LG 论文

摘要

本文验证了蒸馏和量化作为经济高效的方法,用于将Apertus LLM系列扩展到新的规模和硬件格式,生成了Apertus-v1.1模型,参数高达4B,在1.7T tokens上训练。

arXiv:2605.29128v1 公告类型:新 摘要:LLM的广泛采用使其被用于多种应用和场景,例如聊天助手和数据标注,这要求模型满足一定的预算和硬件限制。这导致了LLM以批次形式发布,包含不同尺寸的相似模型,以便模型系列尽可能适应广泛的约束。在本文中,我们验证了蒸馏和量化作为扩展模型系列到新尺寸和硬件格式的经济高效方法。基于开放配方的Apertus 8B LLM,我们生成了Apertus-v1.1——一个蒸馏模型系列,参数高达4B,在1.7T个许可协议tokens上训练。我们展示了该方法在覆盖广泛硬件和系统需求方面的成本效益和强大的准确性能。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:17

# Apertus LLM 系列通过蒸馏与量化扩展
来源: https://arxiv.org/html/2605.29128

###### 摘要

大语言模型(LLMs)的广泛应用使其被部署在多种应用场景中,例如聊天助手和数据标注,这要求模型满足特定的预算和硬件约束。这导致LLMs通常以一批相似但不同规模的模型形式发布,以便尽可能适应广泛的约束条件。本文验证了蒸馏和量化是一种经济高效的方式,可将模型系列扩展到新的规模和硬件格式。基于开放配方Apertus 8B LLM,我们生成了Apertus-v1.1——一个经过蒸馏的模型系列,参数量最高达4B,在1.7T许可协议token上训练。我们展示了该方法在覆盖广泛的硬件和系统需求时具有成本效益和强大的准确率性能。

机器学习, ICML

## 1 背景

大语言模型(LLMs)的流行和多功能性为其部署引入了一系列预算、内存和硬件约束。为适应这些不同需求,以多种规模和格式提供LLMs变得至关重要。发布模型系列能让从业者根据具体部署场景选择计算成本与预测性能之间的最优权衡,从而在不同硬件层级上普及先进AI能力。

然而,从头开始训练整个模型系列需要巨大的计算量。预训练阶段的知识蒸馏(KD),或称预训练蒸馏(PD),为大幅削减这些成本提供了强大解决方案(Peng et al., 2024 (https://arxiv.org/html/2605.29128#bib.bib1))。通过使用教师模型生成的logits将知识从大型、有能力的教师模型转移到较小的学生模型,学生模型能受益于更丰富的信息和隐式标签平滑。这使得学生模型能够更快收敛,并在显著更少的训练token和计算资源下获得更高的下游性能。因此,预训练蒸馏使得在不承担标准预训练计算负担的情况下,经济高效地扩展模型系列成为可能。

解决成本需求(如磁盘空间或延迟)的另一个正交方向是量化。虽然降低数值精度能显著减少内存占用并加速推理,但它不可避免地引入了成本-准确率的权衡。如本文所示,通过在压缩方法的帕累托前沿附近仔细平衡这种权衡,从业者能够对模型的性能和硬件配置实现更精细的控制。这种细粒度控制允许进一步扩展模型系列,以远低于甚至预训练蒸馏的成本填补预训练规模之间的空白。

我们的工作建立在Apertus(Apertus et al., 2025 (https://arxiv.org/html/2605.29128#bib.bib16))项目的基础之上,该项目为完全开放且合规的LLM设立了新标准。与许多保留训练数据和管道的开源权重模型不同,Apertus配方强调完全的透明度、数据合规性和全球多语言代表性。通过将我们的蒸馏和量化管道建立在Apertus生态系统中,我们继承了其严谨的开放性和可复现性。

表1:模型架构概览。
| 模型 | 层数 | 维度 | MLP维度 | 头数(Q/KV) | 维度/层 | 绑定嵌入 | 模型大小 | 计算量 | 存储 |
|---|---|---|---|---|---|---|---|---|---|
| Apertus-v1.1-0.5B | 20 | 1024 | 6144 | 16/4 | 51.2 | 是 | 0.4B | 0.4B |
| Apertus-v1.1-1.5B | 16 | 2048 | 12288 | 32/8 | 128 | 否 | 1.5B | 2.0B |
| Apertus-v1.1-4B | 24 | 3072 | 16384 | 24/8 | 128 | 否 | 3.8B | 4.6B |
| Apertus-8B | 32 | 4096 | 21504 | 32/8 | 128 | 否 | 8.1B | 9.1B |

## 2 预训练蒸馏

### 2.1 配方

#### 数据。

为生成最高质量的模型,我们收集了原始Apertus预训练第五阶段(最终阶段)的数据,该阶段由经过最高质量过滤的文档、代码和指令样本组成,总计约1.7T token。与Apertus类似,我们将这些文档切割并打包成4096 token的块,并使用跨文档注意力掩码进行训练。

#### Logits 生成。

为了能高效地为多个模型重用logits,我们提前生成了整个训练集。我们将收集的文档通过 Apertus-8B-2509 模型运行,每个token获得约131k个logits。计算这些logits的概率分布后,每个token识别出top-256最高概率。这些概率及其在模型词汇表中的对应token索引以32位精度表示,每个token共约2KB数据。张量被分批处理,每组约131k token,用gzip压缩并存储在长期存储中,总占空间约1.5PB。我们在logits生成阶段应用了序列排列,以便在后续训练中只需顺序加载磁盘。

#### 训练目标。

如Peng et al. (2024 (https://arxiv.org/html/2605.29128#bib.bib1))所示,我们采用KL散度与标签交叉熵90%/10%的混合。由于计算的KL散度是稀疏的,相对于基本的交叉熵计算,它几乎没有引入额外的计算或内存开销。

#### 模型架构。

Apertus-v1.1 模型遵循与Apertus相同的架构:密集 Transformer 模型,采用分组查询注意力(grouped-query attention)和MLP中的xIELU(Huang and Schlag, 2025 (https://arxiv.org/html/2605.29128#bib.bib3))激活函数。表1 (https://arxiv.org/html/2605.29128#S1.T1)详细列出了Apertus-v1.1模型的架构配置、参数量以及由此产生的内存和计算足迹。值得注意的是,我们对最小的Apertus-v1.1模型使用了绑定嵌入(tied embeddings)和更薄但更深的架构,以在最小化内存占用的同时最大化性能(Liu et al., 2024 (https://arxiv.org/html/2605.29128#bib.bib2))。

图1:Apertus-v1.1模型的训练损失曲线。虚线表示教师模型(Apertus-8B-2509)的损失。

图2:Apertus-v1.1模型及多个类似规模模型在预训练期间的多语言性能宏观平均值。蒸馏使得Apertus-v1.1模型在训练计算量少了一个数量级的情况下仍能达到有竞争力的性能。

#### 训练动态。

与Apertus类似,我们使用AdEMAMix(Pagliardini et al., 2025 (https://arxiv.org/html/2605.29128#bib.bib4))优化器,配合WSD学习率调度和权重衰减。下一token预测(NTP)损失如图1 (https://arxiv.org/html/2605.29128#S2.F1)所示。多语言下游任务宏观平均值如图2 (https://arxiv.org/html/2605.29128#S2.F2)所示。我们没有观察到训练不稳定,并看到了下游性能的持续提升,尤其是在学习率退火阶段(灰色高亮区域)。

#### SFT 和对齐。

监督微调(SFT)阶段紧接着预训练之后。为此,我们完全复用了原始Apertus的SFT配方,仅调整学习率以匹配Apertus-v1.1模型退火后的学习率。在随后的对齐阶段,我们采用了简化版DPO(Rafailov et al., 2024 (https://arxiv.org/html/2605.29128#bib.bib5))设置。

#### 评估。

遵循Apertus的评估设置,我们在图2 (https://arxiv.org/html/2605.29128#S2.F2)中报告了训练期间的多语言基准测试平均值,在表3 (https://arxiv.org/html/2605.29128#S2.T3)中报告了选定的最终预训练指标,在表4 (https://arxiv.org/html/2605.29128#S2.T4)中报告了多语言后训练评估,并在附录B (https://arxiv.org/html/2605.29128#A2)中报告了更广泛的后训练评估。不出所料,Apertus-v1.1模型的性能曲线与Apertus-8B-2509非常相似,基础模型展现出出色的多语言性能,聊天模型具有良好的多语言聊天能力,但在指令跟随和数学等某些能力方面有所欠缺。

### 2.2 成本分析

表2:小型LLM预训练与蒸馏的成本比较。Apertus-v1.1比竞争性小型LLM预训练管道便宜2-10倍。
| 阶段 | Token | FLOPs |
|---|---|---|
| 原始预训练 | 15T | 3.7E23 |
| Apertus-8B Logits生成 | 1.7T | 1.4E22 |
| Apertus-v1.1 0.5B 预训练 | 1.7T | 0.2E22 |
| Apertus-v1.1 1.5B 预训练 | 1.7T | 0.8E22 |
| Apertus-v1.1 4B 预训练 | 1.7T | 2.0E22 |
| Qwen3-0.6B 预训练 | 36T | 6.5E22 |
| EuroLLM-1.7B 预训练 | 4T | 1.7E22 |
| SmolLM2-1.7B 预训练 | 11T | 5.6E22 |
| SmolLM3-3B 预训练 | 11T | 9.9E22 |

从表2 (https://arxiv.org/html/2605.29128#S2.T2)可以看出,Apertus-v1.1模型使用的计算量显著少于类似规模的模型,仅用1.7T token训练,而Apertus用了15T token。从8B模型生成logits的成本相对较小,因为只需要执行前向传播来生成logits,并且相同的logits只需为整个蒸馏模型系列计算一次,从而大幅削减了每个模型的教师成本。整个Apertus-v1.1模型系列的总计算成本为2.4E22 FLOPs。这低于例如SmolLM2-1.7B的单独预训练成本,且不到原始Apertus 8B预训练成本的12%。

表3:基础模型评估。
| 模型 | 平均 | ARC | HellaSwag | WinoGrande | XNLI | XCOPA | PIQA |
|---|---|---|---|---|---|---|---|
| Apertus-v1.1-0.5B | 51.79 | 44.96 | 40.42 | 57.06 | 41.51 | 55.49 | 71.27 |
| Apertus-v1.1-1.5B | 56.66 | 52.66 | 48.31 | 61.72 | 42.94 | 59.76 | 74.54 |
| Apertus-v1.1-4B | 61.53 | 61.15 | 53.51 | 67.48 | 45.03 | 63.82 | 78.18 |
| Apertus-8B | 64.96 | 71.66 | 59.62 | 69.30 | 44.09 | 65.69 | 79.38 |
| EuroLLM-1.7B | 54.03 | 50.80 | 45.01 | 59.51 | 40.88 | 55.76 | 72.20 |
| SmolLM2-1.7B | 58.00 | 60.23 | 53.38 | 66.22 | 37.57 | 53.51 | 77.10 |
| SmolLM-3B-Base | 60.88 | 64.45 | 56.37 | 68.43 | 40.28 | 58.02 | 77.75 |
| Qwen3-0.6B-Base | 52.23 | 48.35 | 41.01 | 59.20 | 39.55 | 54.96 | 70.29 |
| Qwen3-1.7B-Base | 57.51 | 56.49 | 49.36 | 63.38 | 41.66 | 58.35 | 75.79 |
| Qwen3-4B-Base | 62.14 | 64.99 | 54.56 | 70.48 | 43.00 | 61.82 | 77.97 |

表4:指令微调模型的多语言评估。每个基准测试均为其多语言版本(参见附录B (https://arxiv.org/html/2605.29128#A2))。
| 模型 | 平均 | MMLU | TruthfulQA | Arc | IF | LogiQA |
|---|---|---|---|---|---|---|
| Apertus-v1.1-0.5B Instruct | 0.318 | 0.258 | 0.461 | 0.225 | 0.328 | 0.279 |
| Apertus-v1.1-1.5B-Instruct | 0.382 | 0.377 | 0.451 | 0.266 | 0.434 | 0.276 |
| Apertus-v1.1-4B-Instruct | 0.473 | 0.504 | 0.506 | 0.332 | 0.550 | 0.296 |
| Apertus-8B-Instruct-2509 | 0.534 | 0.553 | 0.524 | 0.368 | 0.689 | 0.290 |
| EuroLLM-1.7B-Instruct | 0.291 | 0.260 | 0.433 | 0.250 | 0.222 | 0.269 |
| EuroLLM-9B-Instruct | 0.480 | 0.520 | 0.465 | 0.322 | 0.613 | 0.345 |
| gemma-3-270m-it | 0.289 | 0.242 | 0.465 | 0.215 | 0.236 | 0.205 |
| gemma-3-1b-it | 0.406 | 0.409 | 0.457 | 0.250 | 0.509 | 0.379 |
| gemma-3-4b-it | 0.497 | 0.547 | 0.492 | 0.316 | 0.635 | 0.411 |
| SmolLM2-1.7B-Instruct | 0.348 | 0.365 | 0.452 | 0.213 | 0.364 | 0.246 |
| SmolLM3-3B | 0.479 | 0.507 | 0.500 | 0.270 | 0.637 | 0.365 |
| Qwen3-0.6B | 0.401 | 0.377 | 0.464 | 0.222 | 0.541 | 0.353 |
| Qwen3-1.7B | 0.457 | 0.477 | 0.490 | 0.251 | 0.611 | 0.414 |
| Qwen3-4B | 0.521 | 0.581 | 0.497 | 0.274 | 0.733 | 0.500 |

## 3 量化

虽然预训练蒸馏成功生成了核心的Apertus-v1.1模型,且成本低廉,但将这些模型适配到高度受限的环境需要针对特定硬件配置进行进一步优化。在本节中,我们考虑将Apertus-v1.1模型适配到NVIDIA GPU和移动设备的问题,展示了量化如何以几乎零成本产生一系列更优的、专用的模型。

图3:Apertus和Apertus-v1.1模型的成本-准确率权衡可视化。基础模型(左)根据验证损失进行比较,而指令微调模型(右)根据下游性能进行比较。量化模型既优化了权衡,又在帕累托前沿上增加了中间点。

### 3.1 Apertus-v1.1 量化配方

图4:Apertus-v1.1量化配方消融实验。

#### 基线。

我们使用GPTQ(Frantar et al., 2023 (https://arxiv.org/html/2605.29128#bib.bib7)),这是最广泛使用的单次LLM量化方法,作为我们的基线。我们对基础模型和指令微调模型分别衡量我们的改进:

- **对于基础模型**,我们在原始预训练混合数据(Apertus第五阶段数据)约17M token的验证集上,衡量相对于未量化模型的损失增加。我们测试了针对基础模型的**权重+激活**(FP8, NVFP4)量化,重点面向NVIDIA Blackwell GPU,因为我们预计其主要用于高吞吐量场景,例如数据标注和嵌入。
- **对于指令微调模型**,我们衡量在Arc(Clark et al., 2018 (https://arxiv.org/html/2605.29128#bib.bib12))、HellaSwag(Zellers et al., 2019 (https://arxiv.org/html/2605.29128#bib.bib13))、MMLU(Hendrycks et al., 2021 (https://arxiv.org/html/2605.29128#bib.bib14))和WinoGrande(Sakaguchi et al., 2019 (https://arxiv.org/html/2605.29128#bib.bib15))上,归一化少样本准确率的宏观平均值的恢复程度。我们测试了针对指令微调模型的**仅权重量化**(INT2, INT3, INT4, INT6),重点面向Apple设备(MLX)推理,因为我们预计其主要用于内存受限场景,例如移动和边缘部署。

#### 量化感知蒸馏(QAD)。

QAD作为完全训练模型上的短恢复阶段被应用,将整个模型视为可训练参数,在每次前向传播时量化其权重,并通过直通估计(Bengio et al., 2013 (https://arxiv.org/html/2605.29128#bib.bib11))使用标准梯度方法更新权重,从而弥合全量化感知训练与PTQ方法之间的差距。与预训练蒸馏类似,教师模型的logits(通常是相应的未量化模型或同一系列中的更大模型)为此阶段提供了更丰富的信号,使其优于量化感知监督微调。QAD已被证明能比零次和一次训练后量化(PTQ)方法带来持续改进(Lee et al., 2025 (https://arxiv.org/html/2605.29128#bib.bib9); Egiazarian et al., 2026 (https://arxiv.org/html/2605.29128#bib.bib8); Xin et al., 2026 (https://arxiv.org/html/2605.29128#bib.bib10))。

由于Apertus和Apertus-v1.1预训练和微调所使用的原始预训练集和SFT混合数据均可公开获取,我们可以在对这些模型进行QAD时使用这些数据,且高度确信蒸馏课程涵盖了模型能力的绝大部分。我们对基础模型和指令微调模型均测试了QAD,分别使用了约100M token(我们观察到超过此量的改进微乎其微)的预训练数据或SFT混合数据。在此场景中,我们使用Apertus-8B-2509和Apertus-8B-Instruct-2509作为教师。额外的实现细节和超参数在附录C.2 (https://arxiv.org/html/2605.29128#A3.SS2) 中描述。

#### 范数融合。

为进一步提高量化质量,我们提出以下零成本静态模型优化:我们缩放注意力QKV和MLP上投影矩阵的列(输入维度),使其具有相同的范数,并将倒数缩放因子以乘法方式融合到前一层归一化层的权重中。这样做的思想是规范化权重的量级,以防止幅度小但重要的权重以及靠近异常通道的权重被冲刷为零。

对压缩基础模型的损失测量以及对指令微调模型的少样本恢复测量表明,这产生了

相似文章

通过联合优化架构与量化策略实现 LLM 压缩

arXiv cs.LG

来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。

Mix-Quant: 量化预填充,精准解码的智能体大语言模型

arXiv cs.CL

Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。

LLMs 101:实用指南(2026年版)

X AI KOLs

一份关于LLMs的全面实用指南,涵盖推理机制、令牌、Transformer、KV缓存、本地部署硬件和量化,截至2026年5月。