CHERRY:压缩层次化专家与循环表示收益
摘要
本文介绍CHERRY,一套用于计算高效语言模型的技术,包括选择性令牌监督、通过循环展开的深度压缩以及混合压缩专家,在韩语基础模型上取得了显著的效率提升。
arXiv:2606.31796v1 公告类型:新
摘要:我们研究了三种互补技术,用于训练计算高效的语言模型。
(1)选择性监督与每令牌效率。选择性真实令牌训练(SGT)将监督集中在约15%携带语义负载的输出令牌上。通过位置共享Transformer权重中的正梯度耦合(一种辅助任务迁移的令牌级实例),其余85%的无监督令牌仍然显著改进,实现了每监督令牌4.5倍的效率(在步骤100评估最优时,约67%的全序列损失减少来自于15%的监督)。我们证明了只要梯度耦合系数γ-bar=0.72为正,这种对无监督令牌的改进是有保证的(定理1),并表明该效果是自然语言结构的属性:它在打乱文本上消失。
(2)深度压缩与循环恢复。一个48层、1B参数的Transformer通过平均相邻层压缩到6层(227M),并通过学习循环展开恢复。使用34个有效循环层,其达到的保留损失为2.934,在测量噪声范围内与566M密集模型的2.926相当——参数减少了2.5倍。
(3)压缩专家融合。将多个压缩模型组装为具有多令牌预测的高效专家混合(MoEE),在可比较的活跃参数下优于每个单一专家:一个2专家MoEE达到损失2.789,而最佳单一压缩模型为2.926。
我们在CHERRY-1.8B上验证了这些技术,这是一个韩语基础模型,其每个可训练参数均来自我们自己的训练运行。我们全程明确说明了证据的范围(一个模型家族、韩语数据、基于损失的指标)以及哪些主张是已证实的与预期的。
查看缓存全文
缓存时间: 2026/07/01 05:35
# 1 引言 来源:https://arxiv.org/html/2606.31796 ![[无标题图片]](https://arxiv.org/html/2606.31796v1/teamsparta_logo.png) AXOps 团队,TeamSparta Inc.\cdot 预印本 \cdot 2026 年 6 月 # CHERRY:压缩分层专家与循环表征产出——面向计算高效语言模型的选择性令牌监督、深度压缩与专家融合 Dohyeon Kwon1 AX 架构师 [email protected] 第一作者 Youngjin Park, 博士1,† 副总裁 [email protected] †通讯作者 AXOps 团队,TeamSparta Inc.,首尔,韩国 https://ax.spartaclub.kr/ ## 摘要 我们研究三种互补的技术,用于训练计算高效的语言模型,并报告以下发现。(1)**选择性监督与逐令牌效率**。选择性真实令牌训练(SGT)将监督集中在承担语义载荷的约 15% 的输出令牌上。通过位置共享变压器权重中的正梯度耦合(一种令牌级的辅助任务迁移实例[44]),其余 85% 的无监督令牌仍能显著改善。这产生了 4.5 倍于监督令牌的效率:在第 100 步评估最优点上,约 67% 的全序列损失减少由 15% 的监督恢复。我们证明,当梯度耦合系数 γ̄ = 0.72 为正时,这种对无监督令牌的改善是有保证的(定理 3),并且我们表明该效应是自然语言结构的一种属性,在打乱的文本上会消失(推论 5)。(2)**通过循环恢复进行深度压缩**。一个 48 层、1B 参数的变压器可以通过平均相邻层压缩到 6 层(227M),然后通过学习的循环展开恢复。采用 34 个有效循环层时,6 层模型达到 2.934 的留出损失,与 566M 稠密模型的 2.926 相比在测量噪声范围内,参数减少了 2.5 倍。(3)**压缩专家融合**。将多个压缩模型组装为高效专家混合(MoEE)并采用多令牌预测,在相当的活动参数下优于每个单一专家:2 专家 MoEE 达到损失 2.789,而最佳单一压缩模型为 2.926。我们在 CHERRY-1.8B 上验证这些技术,这是一个韩国基础模型,其每个可训练参数都来自我们自己的训练运行。我们全程明确说明证据的范围(一个模型家族、韩语数据、基于损失的指标),以及哪些声明是已确定的,哪些是前瞻性的。 **关键词**:波传播、选择性训练、深度压缩、循环深度、专家混合、主权 AI、基础模型 预印本。2026 年 6 月。 如今构建有能力的语言模型需要大量资源。DeepSeek-R1[12] 使用了数千个 GPU 来展示仅通过强化学习即可诱导出涌现推理。A.X-K1[40] 组建了大型团队来构建一个 519B 参数的韩语模型,而 GLM-5.2[45] 扩展到 744B 参数。扩展定律[17] 表明前沿能力需要前沿预算。本文探索一个互补的方向:在固定预算下获得更多收益。我们研究三种技术,共同使得能够用显著更少的计算训练出有竞争力的模型。 最初的观察是,语言模型的监督往往是低效的。在典型的指令-响应对中,只有少数输出令牌承载事实或推理内容(参见[26]);其余是语法支架,预训练模型已经能很好地生成。标准交叉熵损失[36] 平等地加权所有令牌,将监督信号分散到几乎没有增益的位置。我们表明,将监督集中在这一语义少数部分有三个有用的后果。 1. **梯度耦合(“波传播”)效应**(第 3.2 节):由于变压器权重在位置间共享,对监督令牌的梯度步骤也会改善无监督令牌。这是辅助任务迁移[44]的一个令牌级实例;我们测量其幅度,并显示它依赖于语言连贯性。 2. **选择性监督提供了足够强的信号,可以从激进的深度压缩中恢复**(第 3.3 节):从 48 层减少到 6 层,在 500 步内恢复约 78% 的损失差距。 3. **可压缩性使专家融合成为可能**(第 3.4 节):将几个压缩模型组装为专家混合[39] 专家,在相同的活动参数预算下优于任何单一模型。 我们将在 CHERRY-1.8B(第 5 节)上验证这些技术,这是一个韩语基础模型,其每个可训练参数都来自我们自己的训练运行,推理时不依赖于任何外部模型权重。我们在全文使用“主权”一词,取其这种特定、狭隘的含义(表 13)。 ##### 贡献。 - 我们将波传播效应表征为正梯度耦合,证明当耦合为正时它保证了无监督令牌的改善(定理 3),并在留出数据上进行了测量。 - 我们展示了带循环恢复的深度压缩(参数减少 2.5 倍,损失在稠密基线噪声范围内)。 - 我们引入了 MoEE,一种带选择性蒸馏的压缩专家融合。 - 我们描述了 CHERRY-1.8B,它集成了这些技术。 - 我们研究了通过最小两个令牌监督(在 1.2B 规模下保留 97.6%)诱导自纠正(“Atcha”)行为。 ### 研究问题 本文围绕十个研究问题(RQs)展开,这些导出一个基本假设: > “如果我们只训练语义决定性令牌(GT 令牌),剩余语义相邻的输出是否会通过共享权重中的波状传播效应而改善?” 每个 RQ 都经过实验验证,并带有明确的通过/失败结果。表 1 提供了完整的验证矩阵。 **表 1:研究问题及验证状态。** ✓ = 已验证,× = 证伪,△ = 部分验证。 ## 2 相关工作 ##### 令牌级训练目标。 标准语言模型训练在所有输出位置上应用均匀交叉熵[36]。Rho-1[26] 及其概念父级 RHO-LOSS[31] 通过参考模型选择高超额损失令牌,将预训练令牌减少 5–10 倍。与 SGT 类似,Rho-1 也在序列内令牌层级操作,并屏蔽未选中位置的损失;不同之处在于**选择标准**——Rho-1 通过相对于参考模型的*超额损失*进行语料过滤选择,而 SGT 通过*语义角色*(实体、答案关键词、推理/元认知支点)为指令微调进行选择,并配对一个显式的锚点项,防止我们在 α=1 时观察到的崩溃(观察 6)。焦点损失[25] 在分类中降低简单示例的权重,但不选择*哪些*位置进行监督。课程学习[1] 按难度排序示例,但平等处理每个示例内的所有令牌。跨度选择性监督的简单前驱——仅答案损失掩码(指令微调中的标准做法)——仅监督响应跨度;SGT 将其泛化到子响应语义选择。 ##### 梯度耦合与辅助任务迁移。 波传播的底层机制,即梯度对齐时一个损失的梯度步骤会减少另一个损失,是多任务和辅助任务学习中的关键量。梯度手术(PCGrad)[44] 通过恰好定义我们耦合系数 γ(公式 5)的梯度内积形式化了建设性 vs 冲突梯度,而经验神经正切核[14] 控制着一个样本的步骤如何改变对其他样本的预测。我们的定理 3 是该迁移针对位置共享权重的令牌级特化;我们的贡献不在于耦合的存在,而在于其测量幅度(γ̄ = 0.72)、对语言连贯性的依赖性(推论 5)及其作为训练效率原则的用途。 ##### 重要性采样与选择性反向传播。 Katharopoulos 和 Fleuret[18] 通过估计损失贡献对训练示例加权;Jiang 等[15] 在反向传播期间跳过低重要性示例。过程奖励模型[24] 为推理监督分配令牌级重要性分数。这些方法在*示例*或*步骤*层级操作;SGT 在*序列内令牌*层级操作,在将监督集中在语义决定性位置的同时保持完整因果上下文。掩码语言建模(BERT[6]、T5[37])也在令牌子集上训练,但采用与自回归生成不相容的双向*重构*目标。 ##### 知识蒸馏。 Hinton 等[13] 确立了用于模型压缩的软目标蒸馏。后续工作探索了逐层[16]、基于注意力[42] 和任务特定蒸馏。我们的 SGT 蒸馏将 KL 目标限制在 GT 位置,利用波传播以比全序列蒸馏低约 5 倍的成本将教师知识迁移到完整学生分布。 ##### 模型压缩与剪枝。 结构化剪枝移除整个层[30]、注意力头或中间维度。LLM-Prune[29] 使用基于梯度的重要性评分。最接近我们方法的是 Gromov 等[10],它们剪除连续的较深层并通过轻量微调*修复*——相同的合并然后恢复结构,但采用删除而非平均。我们的相邻层合并是互补的:我们不删除层,而是平均相邻对,保留一个能在 SGT 训练下快速恢复的平滑初始化。 ##### 专家混合。 Shazeer 等[39] 将稀疏门控 MoE 引入语言模型。Switch Transformers[7] 将路由简化为 top-1 选择。近期前沿模型(DeepSeek-V3[3]、GLM-5.2[45])在万亿参数规模使用 MoE。将*独立获得*的模型组装起来,已被分支-训练-合并[23](通过集成组合并行专家 LM)和模型汤[43](微调模型的权重平均)研究。我们的 MoEE 区别在于通过*压缩*一个共享主干获得专家,并使用学习的、通过 MTP 增强的路由器组装它们,而不是通过权重平均(汤)或在发散数据上训练的专家路由(BTM)。 ##### 循环深度与参数重用。 通用 Transformer[5] 用一个自适应停止的单个层循环;ALBERT[20] 在所有深度上绑定一个块的权重。Geiping 等[8] 扩展循环深度用于测试时计算。我们的 RDT 结合了合并后修复压缩(参见[10])与 ALBERT 风格的权重绑定(实现为合并核心的循环展开),从压缩参数集中恢复有效深度。 ##### 推测解码。 Leviathan 等[21] 和 Chen 等[2] 使用一个小型草稿模型提出令牌,由目标模型验证。多令牌预测头[9] 无需独立草稿模型即可实现自推测解码。我们的 oracle MTP 使用交叉注意力预测头(用未来隐藏状态训练),无需辅助模型即可实现 1.6–2.1 倍加速。 ## 3 方法 ### 3.1 概述 Cherry 框架分四个阶段运作: 1. **选择性训练**:识别语义决定性令牌(GT 集合 G),并使用一种混合损失 LSGT 训练,该损失提高 GT 位置的权重。 2. **压缩**:通过相邻层合并减少模型深度。 3. **循环**:通过学习压缩模型中间层的循环展开恢复有效深度。 4. **融合**:将压缩模型组装为 MoE 专家,并使用来自前沿教师的 SGT 引导蒸馏。 每个阶段建立在前一个阶段之上:选择性训练提供了有助于压缩恢复的信号质量;压缩提供了使专家融合变得实用的参数效率;而融合提供了表征多样性,在固定活动参数预算下改善质量。 ### 3.2 选择性真实令牌训练(SGT) #### 3.2.1 GT 令牌层次 **定义 1(GT 令牌层次)**。给定响应 y = (y₁, …, yₘ),我们定义嵌套的令牌集合: - F = {1, …, m}(全量) - G ⊆ F(真实:事实实体、答案关键词、推理支点;|G|/|F| ≈ 0.15–0.20) - G* ⊆ G(超级 GT:每个答案跨度中最具决定性的单个令牌) - G** ⊆ G*(超级-超级 GT:触发状态转换的元认知支点) #### 3.2.2 GT 令牌识别 GT 令牌通过一个混合流水线识别,该流水线尊重模型的聊天模板、推理格式和工具调用约定: 1. **聊天模板感知预处理**。训练数据完全映射到目标模型的聊天模板:系统提示、多轮历史、推理和工具调用特殊令牌(例如 `<|spartan_think|>`;`spartan` 是保留在词汇表中的组织代号),以及结构化输出(待续)
相似文章
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。
将混合专家模型剪枝与蒸馏为稠密语言模型
一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构,相比传统剪枝方法实现了更优的性能和效率。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
基于门控关联检索的通用三重潜在压缩
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
专家联邦:面向大语言模型的高效通信分布式推理
专家联邦(FoE)将混合专家模块重组为独立处理KV头的集群,消除了节点间通信瓶颈,在保持生成质量的同时,将推理吞吐量和延迟提升高达5.2倍。