CHERRY：压缩层次化专家与循环表示收益

arXiv cs.CL 2026/07/01 04:00 论文

摘要

本文介绍CHERRY，一套用于计算高效语言模型的技术，包括选择性令牌监督、通过循环展开的深度压缩以及混合压缩专家，在韩语基础模型上取得了显著的效率提升。

arXiv:2606.31796v1 公告类型：新摘要：我们研究了三种互补技术，用于训练计算高效的语言模型。（1）选择性监督与每令牌效率。选择性真实令牌训练（SGT）将监督集中在约15%携带语义负载的输出令牌上。通过位置共享Transformer权重中的正梯度耦合（一种辅助任务迁移的令牌级实例），其余85%的无监督令牌仍然显著改进，实现了每监督令牌4.5倍的效率（在步骤100评估最优时，约67%的全序列损失减少来自于15%的监督）。我们证明了只要梯度耦合系数γ-bar=0.72为正，这种对无监督令牌的改进是有保证的（定理1），并表明该效果是自然语言结构的属性：它在打乱文本上消失。（2）深度压缩与循环恢复。一个48层、1B参数的Transformer通过平均相邻层压缩到6层（227M），并通过学习循环展开恢复。使用34个有效循环层，其达到的保留损失为2.934，在测量噪声范围内与566M密集模型的2.926相当——参数减少了2.5倍。（3）压缩专家融合。将多个压缩模型组装为具有多令牌预测的高效专家混合（MoEE），在可比较的活跃参数下优于每个单一专家：一个2专家MoEE达到损失2.789，而最佳单一压缩模型为2.926。我们在CHERRY-1.8B上验证了这些技术，这是一个韩语基础模型，其每个可训练参数均来自我们自己的训练运行。我们全程明确说明了证据的范围（一个模型家族、韩语数据、基于损失的指标）以及哪些主张是已证实的与预期的。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:35

# 1 引言 来源：https://arxiv.org/html/2606.31796 ![[无标题图片]](https://arxiv.org/html/2606.31796v1/teamsparta_logo.png) AXOps 团队，TeamSparta Inc.\cdot 预印本 \cdot 2026 年 6 月

# CHERRY：压缩分层专家与循环表征产出——面向计算高效语言模型的选择性令牌监督、深度压缩与专家融合

Dohyeon Kwon1 AX 架构师 [email protected] 第一作者  
Youngjin Park, 博士1,† 副总裁 [email protected]  
†通讯作者  
AXOps 团队，TeamSparta Inc.，首尔，韩国 https://ax.spartaclub.kr/

## 摘要

我们研究三种互补的技术，用于训练计算高效的语言模型，并报告以下发现。（1）**选择性监督与逐令牌效率**。选择性真实令牌训练（SGT）将监督集中在承担语义载荷的约 15% 的输出令牌上。通过位置共享变压器权重中的正梯度耦合（一种令牌级的辅助任务迁移实例[44]），其余 85% 的无监督令牌仍能显著改善。这产生了 4.5 倍于监督令牌的效率：在第 100 步评估最优点上，约 67% 的全序列损失减少由 15% 的监督恢复。我们证明，当梯度耦合系数 γ̄ = 0.72 为正时，这种对无监督令牌的改善是有保证的（定理 3），并且我们表明该效应是自然语言结构的一种属性，在打乱的文本上会消失（推论 5）。（2）**通过循环恢复进行深度压缩**。一个 48 层、1B 参数的变压器可以通过平均相邻层压缩到 6 层（227M），然后通过学习的循环展开恢复。采用 34 个有效循环层时，6 层模型达到 2.934 的留出损失，与 566M 稠密模型的 2.926 相比在测量噪声范围内，参数减少了 2.5 倍。（3）**压缩专家融合**。将多个压缩模型组装为高效专家混合（MoEE）并采用多令牌预测，在相当的活动参数下优于每个单一专家：2 专家 MoEE 达到损失 2.789，而最佳单一压缩模型为 2.926。我们在 CHERRY-1.8B 上验证这些技术，这是一个韩国基础模型，其每个可训练参数都来自我们自己的训练运行。我们全程明确说明证据的范围（一个模型家族、韩语数据、基于损失的指标），以及哪些声明是已确定的，哪些是前瞻性的。

**关键词**：波传播、选择性训练、深度压缩、循环深度、专家混合、主权 AI、基础模型

预印本。2026 年 6 月。

如今构建有能力的语言模型需要大量资源。DeepSeek-R1[12] 使用了数千个 GPU 来展示仅通过强化学习即可诱导出涌现推理。A.X-K1[40] 组建了大型团队来构建一个 519B 参数的韩语模型，而 GLM-5.2[45] 扩展到 744B 参数。扩展定律[17] 表明前沿能力需要前沿预算。本文探索一个互补的方向：在固定预算下获得更多收益。我们研究三种技术，共同使得能够用显著更少的计算训练出有竞争力的模型。

最初的观察是，语言模型的监督往往是低效的。在典型的指令-响应对中，只有少数输出令牌承载事实或推理内容（参见[26]）；其余是语法支架，预训练模型已经能很好地生成。标准交叉熵损失[36] 平等地加权所有令牌，将监督信号分散到几乎没有增益的位置。我们表明，将监督集中在这一语义少数部分有三个有用的后果。

1. **梯度耦合（“波传播”）效应**（第 3.2 节）：由于变压器权重在位置间共享，对监督令牌的梯度步骤也会改善无监督令牌。这是辅助任务迁移[44]的一个令牌级实例；我们测量其幅度，并显示它依赖于语言连贯性。
2. **选择性监督提供了足够强的信号，可以从激进的深度压缩中恢复**（第 3.3 节）：从 48 层减少到 6 层，在 500 步内恢复约 78% 的损失差距。
3. **可压缩性使专家融合成为可能**（第 3.4 节）：将几个压缩模型组装为专家混合[39] 专家，在相同的活动参数预算下优于任何单一模型。

我们将在 CHERRY-1.8B（第 5 节）上验证这些技术，这是一个韩语基础模型，其每个可训练参数都来自我们自己的训练运行，推理时不依赖于任何外部模型权重。我们在全文使用“主权”一词，取其这种特定、狭隘的含义（表 13）。

##### 贡献。
- 我们将波传播效应表征为正梯度耦合，证明当耦合为正时它保证了无监督令牌的改善（定理 3），并在留出数据上进行了测量。
- 我们展示了带循环恢复的深度压缩（参数减少 2.5 倍，损失在稠密基线噪声范围内）。
- 我们引入了 MoEE，一种带选择性蒸馏的压缩专家融合。
- 我们描述了 CHERRY-1.8B，它集成了这些技术。
- 我们研究了通过最小两个令牌监督（在 1.2B 规模下保留 97.6%）诱导自纠正（“Atcha”）行为。

### 研究问题

本文围绕十个研究问题（RQs）展开，这些导出一个基本假设：  
> “如果我们只训练语义决定性令牌（GT 令牌），剩余语义相邻的输出是否会通过共享权重中的波状传播效应而改善？”

每个 RQ 都经过实验验证，并带有明确的通过/失败结果。表 1 提供了完整的验证矩阵。

**表 1：研究问题及验证状态。** ✓ = 已验证，× = 证伪，△ = 部分验证。

## 2 相关工作

##### 令牌级训练目标。
标准语言模型训练在所有输出位置上应用均匀交叉熵[36]。Rho-1[26] 及其概念父级 RHO-LOSS[31] 通过参考模型选择高超额损失令牌，将预训练令牌减少 5–10 倍。与 SGT 类似，Rho-1 也在序列内令牌层级操作，并屏蔽未选中位置的损失；不同之处在于**选择标准**——Rho-1 通过相对于参考模型的*超额损失*进行语料过滤选择，而 SGT 通过*语义角色*（实体、答案关键词、推理/元认知支点）为指令微调进行选择，并配对一个显式的锚点项，防止我们在 α=1 时观察到的崩溃（观察 6）。焦点损失[25] 在分类中降低简单示例的权重，但不选择*哪些*位置进行监督。课程学习[1] 按难度排序示例，但平等处理每个示例内的所有令牌。跨度选择性监督的简单前驱——仅答案损失掩码（指令微调中的标准做法）——仅监督响应跨度；SGT 将其泛化到子响应语义选择。

##### 梯度耦合与辅助任务迁移。
波传播的底层机制，即梯度对齐时一个损失的梯度步骤会减少另一个损失，是多任务和辅助任务学习中的关键量。梯度手术（PCGrad）[44] 通过恰好定义我们耦合系数 γ（公式 5）的梯度内积形式化了建设性 vs 冲突梯度，而经验神经正切核[14] 控制着一个样本的步骤如何改变对其他样本的预测。我们的定理 3 是该迁移针对位置共享权重的令牌级特化；我们的贡献不在于耦合的存在，而在于其测量幅度（γ̄ = 0.72）、对语言连贯性的依赖性（推论 5）及其作为训练效率原则的用途。

##### 重要性采样与选择性反向传播。
Katharopoulos 和 Fleuret[18] 通过估计损失贡献对训练示例加权；Jiang 等[15] 在反向传播期间跳过低重要性示例。过程奖励模型[24] 为推理监督分配令牌级重要性分数。这些方法在*示例*或*步骤*层级操作；SGT 在*序列内令牌*层级操作，在将监督集中在语义决定性位置的同时保持完整因果上下文。掩码语言建模（BERT[6]、T5[37]）也在令牌子集上训练，但采用与自回归生成不相容的双向*重构*目标。

##### 知识蒸馏。
Hinton 等[13] 确立了用于模型压缩的软目标蒸馏。后续工作探索了逐层[16]、基于注意力[42] 和任务特定蒸馏。我们的 SGT 蒸馏将 KL 目标限制在 GT 位置，利用波传播以比全序列蒸馏低约 5 倍的成本将教师知识迁移到完整学生分布。

##### 模型压缩与剪枝。
结构化剪枝移除整个层[30]、注意力头或中间维度。LLM-Prune[29] 使用基于梯度的重要性评分。最接近我们方法的是 Gromov 等[10]，它们剪除连续的较深层并通过轻量微调*修复*——相同的合并然后恢复结构，但采用删除而非平均。我们的相邻层合并是互补的：我们不删除层，而是平均相邻对，保留一个能在 SGT 训练下快速恢复的平滑初始化。

##### 专家混合。
Shazeer 等[39] 将稀疏门控 MoE 引入语言模型。Switch Transformers[7] 将路由简化为 top-1 选择。近期前沿模型（DeepSeek-V3[3]、GLM-5.2[45]）在万亿参数规模使用 MoE。将*独立获得*的模型组装起来，已被分支-训练-合并[23]（通过集成组合并行专家 LM）和模型汤[43]（微调模型的权重平均）研究。我们的 MoEE 区别在于通过*压缩*一个共享主干获得专家，并使用学习的、通过 MTP 增强的路由器组装它们，而不是通过权重平均（汤）或在发散数据上训练的专家路由（BTM）。

##### 循环深度与参数重用。
通用 Transformer[5] 用一个自适应停止的单个层循环；ALBERT[20] 在所有深度上绑定一个块的权重。Geiping 等[8] 扩展循环深度用于测试时计算。我们的 RDT 结合了合并后修复压缩（参见[10]）与 ALBERT 风格的权重绑定（实现为合并核心的循环展开），从压缩参数集中恢复有效深度。

##### 推测解码。
Leviathan 等[21] 和 Chen 等[2] 使用一个小型草稿模型提出令牌，由目标模型验证。多令牌预测头[9] 无需独立草稿模型即可实现自推测解码。我们的 oracle MTP 使用交叉注意力预测头（用未来隐藏状态训练），无需辅助模型即可实现 1.6–2.1 倍加速。

## 3 方法

### 3.1 概述

Cherry 框架分四个阶段运作：

1. **选择性训练**：识别语义决定性令牌（GT 集合 G），并使用一种混合损失 LSGT 训练，该损失提高 GT 位置的权重。
2. **压缩**：通过相邻层合并减少模型深度。
3. **循环**：通过学习压缩模型中间层的循环展开恢复有效深度。
4. **融合**：将压缩模型组装为 MoE 专家，并使用来自前沿教师的 SGT 引导蒸馏。

每个阶段建立在前一个阶段之上：选择性训练提供了有助于压缩恢复的信号质量；压缩提供了使专家融合变得实用的参数效率；而融合提供了表征多样性，在固定活动参数预算下改善质量。

### 3.2 选择性真实令牌训练（SGT）

#### 3.2.1 GT 令牌层次

**定义 1（GT 令牌层次）**。给定响应 y = (y₁, …, yₘ)，我们定义嵌套的令牌集合：
- F = {1, …, m}（全量）
- G ⊆ F（真实：事实实体、答案关键词、推理支点；|G|/|F| ≈ 0.15–0.20）
- G* ⊆ G（超级 GT：每个答案跨度中最具决定性的单个令牌）
- G** ⊆ G*（超级-超级 GT：触发状态转换的元认知支点）

#### 3.2.2 GT 令牌识别

GT 令牌通过一个混合流水线识别，该流水线尊重模型的聊天模板、推理格式和工具调用约定：

1. **聊天模板感知预处理**。训练数据完全映射到目标模型的聊天模板：系统提示、多轮历史、推理和工具调用特殊令牌（例如 `<|spartan_think|>`；`spartan` 是保留在词汇表中的组织代号），以及结构化输出（待续）

CHERRY：压缩层次化专家与循环表示收益

相似文章

通过令牌剪枝优化韩语中心的大语言模型

将混合专家模型剪枝与蒸馏为稠密语言模型

XPERT：通过专家知识迁移实现语言模型的高效训练

基于门控关联检索的通用三重潜在压缩

专家联邦：面向大语言模型的高效通信分布式推理

提交意见反馈