DuDi:基于跨语言词语化器的双信号蒸馏方法
摘要
DuDi 是一个双信号多语言蒸馏框架,结合序列级与词元级信号以及跨语言词语化器,旨在提升小型语言模型在东南亚语言上的表现。在 SEA-HELM 上的实验表明,DuDi 在多个模型系列和规模设置下均能持续超越具有竞争力的蒸馏基线方法。
arXiv:2606.04694v1 公告类型:新论文
摘要:小型语言模型(SLM)具有高效、易扩展的优点,但其多语言能力在参数量低于十亿时会显著退化,尤其在东南亚(SEA)语言上表现更为突出。我们提出 DuDi,一个双信号多语言蒸馏框架,将在线序列级信号与离策略及在策略词元级信号相结合。DuDi 进一步引入跨语言词语化器,以精炼教师模型的反馈信号,并提升多语言场景下教师-学生模型间的可迁移性。在 SEA-HELM 上跨多个模型系列、不同参数规模及多种师生设置的实验表明,DuDi 持续优于具有竞争力的蒸馏基线方法。消融实验与深入分析证实,序列级优化、词元级监督与跨语言词语化三者为多语言 SLM 提供了互补且可迁移的学习信号。
查看缓存全文
缓存时间: 2026/06/05 02:17
# DuDi:基于跨语言映射器的双信号蒸馏
来源:https://arxiv.org/html/2606.04694
Patomporn Payoungkhamdee1\*†\\dagger,Tinnakit Udsa1\*,Jian Gang Ngui2,Sarana Nutanong1,Alham Fikri Aji3,Peerat Limkonchotiwat2 1VISTEC信息科学与技术学院 2AI Singapore 3MBZUAI \{patomporn\.p\_s21,tinnakit\.u\_s24\}@vistec\.ac\.th,peerat@aisingapore\.org GitHub (https://github.com/aisingapore/DuDi)[![[未标注图片]](https://arxiv.org/html/2606.04694v1/hf-logo.png)Hugging Face](https://huggingface.co/collections/aisingapore/dudi-dual-signal-distillation-with-cross-lingual-verbalizer)
###### 摘要
小型语言模型(SLM)具有高效性和可扩展性,但其多语言能力在参数量低于十亿级别时会严重退化,对东南亚(SEA)语言尤为突出。我们提出 DuDi,一种双信号多语言蒸馏框架,将在线序列级信号与离策略和在策略的词元级信号相结合。DuDi 进一步引入跨语言映射器(cross-lingual verbalizer)来精炼教师反馈,提升多语言场景下的师生知识迁移能力。在 SEA-HELM 上跨多个模型系列、规模及师生设置的实验表明,DuDi 始终优于有竞争力的蒸馏基线。消融实验和分析证实,序列级优化、词元级监督以及跨语言映射三者为多语言 SLM 提供了互补且可迁移的学习信号。
DuDi:基于跨语言映射器的双信号蒸馏
Patomporn Payoungkhamdee1\*†\\dagger,Tinnakit Udsa1\*,Jian Gang Ngui2,Sarana Nutanong1,Alham Fikri Aji3,Peerat Limkonchotiwat2 1VISTEC信息科学与技术学院 2AI Singapore 3MBZUAI \{patomporn\.p\_s21,tinnakit\.u\_s24\}@vistec\.ac\.th,peerat@aisingapore\.org GitHub (https://github.com/aisingapore/DuDi)[![[未标注图片]](https://arxiv.org/html/2606.04694v1/hf-logo.png)Hugging Face](https://huggingface.co/collections/aisingapore/dudi-dual-signal-distillation-with-cross-lingual-verbalizer)
\*\*脚注:同等贡献 $\\dagger$$\\dagger$脚注:Patomporn Payoungkhamdee 在 AI Singapore 担任访问学者期间完成本工作
## 1 引言
小型语言模型(SLM)因其高效性和可扩展性近来受到广泛关注\(Hu et al\.,2024 (https://arxiv.org/html/2606.04694#bib.bib16); Nguyen et al\.,2024 (https://arxiv.org/html/2606.04694#bib.bib39); Subramanian et al\.,2025 (https://arxiv.org/html/2606.04694#bib.bib40); Wang et al\.,2024 (https://arxiv.org/html/2606.04694#bib.bib41)\)。例如,Qwen2\.5\-1\.5B 和 \-0\.5B 的推理吞吐量分别比 Qwen2\.5\-7B 高出约 1\.5×\\times 和 2\.2×\\times,同时内存占用分别降低 48% 和 81%。111采用 BF16 精度、输入长度 6144 进行测量,基准测试来自 https://qwen.readthedocs.io/en/v2.5/benchmark/speed_benchmark.html 这些优势降低了部署成本,并支持更高效的大规模服务。与较大模型相比,SLM 在可扩展性、计算量和内存使用方面具有实际优势\(Hu et al\.,2024 (https://arxiv.org/html/2606.04694#bib.bib16)\)。这些特性使其适合在资源受限和边缘设备上部署\(Liu et al\.,2024 (https://arxiv.org/html/2606.04694#bib.bib17)\),同时支持大规模真实应用场景\(Pham et al\.,2025 (https://arxiv.org/html/2606.04694#bib.bib15); Chen et al\.,2025 (https://arxiv.org/html/2606.04694#bib.bib12)\)。
然而,SLM 的多语言能力仍然有限 Qin et al\.\(2025 (https://arxiv.org/html/2606.04694#bib.bib11)\);Xuan et al\.\(2025 (https://arxiv.org/html/2606.04694#bib.bib13)\),对于东南亚(SEA)语言尤为如此——这一地区语言高度多样,拥有数亿使用者。如图1 (https://arxiv.org/html/2606.04694#S1.F1) 所示,模型规模降至十亿以下时,SEA 语言性能大幅下降。尤其是 Qwen2\.5\-0\.5B 的监督微调(SFT)变体相较于 Qwen2\.5\-1\.5B 出现明显下滑,而较新的 Qwen3\-0\.6B 在标准 SFT 下的 SEA 性能仍然有限。这些结果表明,规模缩减会削弱多语言理解能力,这促使我们探索专为 SLM 设计的训练策略。
参见图注 图1:使用 SEA-HELM 基准(↑\\uparrow)评估不同模型规模和训练框架下 SEA 性能的对比。各模型详情见第4节 (https://arxiv.org/html/2606.04694#S4)。提升 SLM 性能的常见方法是知识蒸馏(KD),即将较大教师模型的知识迁移给较小的学生模型 Hinton et al\.\(2015 (https://arxiv.org/html/2606.04694#bib.bib34)\);Kim and Rush \(2016 (https://arxiv.org/html/2606.04694#bib.bib35)\);Agarwal et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib36)\);Gu et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib23)\);Ko et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib22),2025 (https://arxiv.org/html/2606.04694#bib.bib20)\)。尽管 KD 近年来取得了诸多进展,但多语言蒸馏在很大程度上仍局限于特定任务或以数据为中心的场景 Payoungkhamdee et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib28)\);Zhang et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib10)\),针对 SLM 的通用多语言蒸馏仍有待深入研究。这一空白在 SEA 语言中尤为突出,原因在于其语言多样性以及高质量训练数据的匮乏,这促使我们开发专为 SLM 设计的多语言 KD 策略。
为解决上述局限,我们提出**双信号蒸馏与跨语言映射器**(DuDi),一种专为 SLM 多语言蒸馏设计的通用框架。DuDi 围绕三个组件构建统一的 KD 框架:*序列信号*、*词元信号*和*跨语言映射器*。在序列信号方面,DuDi 引入在线序列级目标,引导学生策略朝向真实标签方向优化。在词元信号方面,DuDi 同时使用离策略和在策略监督:离策略信号来自训练语料库,在策略信号来自学生生成的响应。为促进知识可迁移性,DuDi 使用跨语言映射器在在策略蒸馏过程中精炼教师 logits,使学生响应与真实示范对齐。这一设计有助于在多语言环境中更好地促进学生模型的学习。
为评估 DuDi,我们在 SEA 训练与评估框架下,使用 SEA-Instruct222https://huggingface.co/datasets/aisingapore/SEA-Instruct-2602 和 SEA-HELM Susanto et al\.\(2025 (https://arxiv.org/html/2606.04694#bib.bib18)\) 将其与有竞争力的方法进行对比。实验结果表明,DuDi 在 Qwen2\.5\-0\.5B 设置下取得了最强的整体性能,并在大多数 SEA 语言上实现了提升。这一趋势在不同规模和架构下均得到验证,体现了良好的可扩展性和鲁棒性。消融实验表明,移除任意 DuDi 组件均会导致持续性性能下降,突显了联合优化序列级目标、双策略词元信号和跨语言映射器的必要性。最后,对 DuDi 映射器的分析表明,它为师生蒸馏提供了更丰富的学习信号。
综上所述,本文的主要贡献如下:
- •我们提出 **DuDi**,一种将序列级信号与词元级信号相结合的多语言知识蒸馏框架,提升了小型语言模型的 SEA 语言性能。
- •我们引入**跨语言映射器**,更好地促进在策略蒸馏。
- •我们进行**消融实验和分析**,评估各组件的作用,验证双信号与映射器设计的有效性。
## 2 背景
方法 | 教师 | 离策略词元信号 | 在策略词元信号 | 序列信号 | 映射器
SFT | ×\\times | ✓\\checkmark | ×\\times | ×\\times | ×\\times
DFT Wu et al\.\(2026 (https://arxiv.org/html/2606.04694#bib.bib37)\) | ×\\times | ✓\\checkmark | ×\\times | ×\\times | ×\\times
SPIN Chen et al\.\(2024b (https://arxiv.org/html/2606.04694#bib.bib33)\) | ×\\times | ×\\times | ×\\times | ✓\\checkmark | ×\\times
SDFT Shenfelt et al\.\(2026 (https://arxiv.org/html/2606.04694#bib.bib38)\) | Self | ×\\times | ✓\\checkmark | ×\\times | 英语
SeqKD Kim and Rush \(2016 (https://arxiv.org/html/2606.04694#bib.bib35)\) | 较大模型 | ✓\\checkmark | ×\\times | ×\\times | ×\\times
GKD Agarwal et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib36)\) | 较大模型 | ✓\\checkmark | ✓\\checkmark | ×\\times | ×\\times
DuDi(本文)| 较大模型 | ✓\\checkmark | ✓\\checkmark | ✓\\checkmark | 跨语言
表1:不同框架训练范式的对比。多语言训练语料库由输入 xx、真实标签 yy 和语言 ll 组成。形式上,该数据集定义为 D=\{\(xi,yi,li\)\}i=1N\\mathcal\{D\}=\\\{\(x\_\{i\},y\_\{i\},l\_\{i\}\)\\\}\_\{i=1\}^\{N\},其中 NN 表示训练样本总数。为从数据中学习,采用微调方法对策略 πθ\\pi\_\{\\theta\} 进行优化。该过程通过最小化目标函数 L\(xi,yi,li;πθ\)\\mathcal\{L\}\(x\_\{i\},y\_\{i\},l\_\{i\};\\pi\_\{\\theta\}\) 来度量模型随机预测与真实标签之间的差异。现有方法以不同方式构建该目标函数,以应对不同的学习动态。
**离策略微调。** 该方法是一种直接的方式,通常以交叉熵目标为基础。给定模型策略 πθ\\pi\_\{\\theta\},损失函数定义为
LOff\-FT=E\(x,y\)∼D\[−wlogπθ\(y\|x\)\],\\mathcal\{L\}\_\{\\text\{Off\-FT\}\}=\\mathbb\{E\}\_\{\(x,y\)\\sim\\mathcal\{D\}\}\\left\[\-w\\log\\pi\_\{\\theta\}\(y\|x\)\\right\],\(1\)其中 ww 作为权重系数用于调节训练信号。在标准监督微调(SFT)中,w=1w=1,对所有词元一视同仁。在动态微调(DFT)Wu et al\.\(2026 (https://arxiv.org/html/2606.04694#bib.bib37)\) 中,ww 定义为 sg\(πθ\(y\|x\)\)\\text\{sg\}\(\\pi\_\{\\theta\}\(y\|x\)\),其中 sg\(⋅\)\\text\{sg\}\(\\cdot\) 表示停止梯度算子。这种词元加权方式旨在稳定梯度幅度并提升微调过程中的泛化能力。
**迭代微调。** 为解决静态训练数据的局限性,先前工作探索了通过迭代自博弈进行策略精炼的方法 Tesauro \(1995 (https://arxiv.org/html/2606.04694#bib.bib7)\);Silver et al\.\(2017 (https://arxiv.org/html/2606.04694#bib.bib6)\)。Chen et al\.\(2024b (https://arxiv.org/html/2606.04694#bib.bib33)\) 提出了自博弈微调(SPIN),这是一种自举框架,通过区分真实标签与从 SFT 初始化的参考策略中采样的自生成响应 y′∼πθRef\(x\)y^\{\\prime\}\\sim\\pi\_\{\\theta\_\{\\text\{Ref\}\}\}\(x\) 来改进模型。该方法通过最大化与自身前一迭代的积分概率度量来优化策略。迭代微调目标定义为
LIFT=E\(x,y\)∼D,y′\[l\(λlogπθRef\(y\|x\)πθ\(y′\|x\)πθ\(y\|x\)πθRef\(y′\|x\)\)\],\\mathcal\{L\}\_\{\\text\{IFT\}\}=\\mathbb\{E\}\_\{\(x,y\)\\sim\\mathcal\{D\},y^\{\\prime\}\}\\left\[\\ell\\left\(\\lambda\\log\\frac\{\\pi\_\{\\theta\_\{\\text\{Ref\}\}\}\(y\|x\)\\pi\_\{\\theta\}\(y^\{\\prime\}\|x\)\}\{\\pi\_\{\\theta\}\(y\|x\)\\pi\_\{\\theta\_\{\\text\{Ref\}\}\}\(y^\{\\prime\}\|x\)\}\\right\)\\right\],
\(2\)其中 l\(t\)=log\(1\+exp\(−t\)\)\\ell\(t\)=\\log\(1\+\\exp\(\-t\)\) 是逻辑损失,λ\>0\\lambda\>0 为正则化参数。通过对比目标响应与自身生成内容的对数似然比,模型在连续迭代中将策略逐步与真实标签分布对齐。
**自蒸馏。** 为缓解离策略微调的泛化问题,若干研究采用了自蒸馏范式 Yang et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib14)\);Zhang et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib10)\);Hübotter et al\.\(2026 (https://arxiv.org/html/2606.04694#bib.bib2)\)。具体而言,Shenfelt et al\.\(2026 (https://arxiv.org/html/2606.04694#bib.bib38)\) 提出了自蒸馏微调(SDFT),通过将指数移动平均学生模型作为教师 πθT∼EMA\(πθ\)\\pi\_\{\\theta\_\{\\text\{T\}\}\}\\sim\\text\{EMA\}\(\\pi\_\{\\theta\}\),将离策略信号转化为在策略范式。SDFT 的核心组件是一个英语映射器函数 z∼ven\(x,y\)z\\sim v\_\{\\text\{en\}\}\(x,y\),用于将输入与真实标签对转换为结构化的示范提示供教师模型使用(见图6 (https://arxiv.org/html/2606.04694#A5.F6))。该映射后的示范随后用于引导学生生成响应 y~∼πθ\(x\)\\tilde\{y\}\\sim\\pi\_\{\\theta\}\(x\)。优化目标最小化以映射示范为条件的教师与学生策略之间的散度:
LSD=Ex∼D,y~,z\[D\(πθT\(y~\|z\)\|\|πθ\(y~\|x\)\)\]\.\\mathcal\{L\}\_\{\\text\{SD\}\}=\\mathbb\{E\}\_\{x\\sim\{D\},\\tilde\{y\},z\}\\left\[D\\left\(\\pi\_\{\\theta\_\{\\text\{T\}\}\}\(\\tilde\{y\}\|z\)\|\|\\pi\_\{\\theta\}\(\\tilde\{y\}\|x\)\\right\)\\right\]\.\(3\)通过利用这一临时集成,SDFT 对优化路径进行正则化,并通过词元级指导改善泛化能力。
**教师蒸馏。** 教师知识蒸馏 Hinton et al\.\(2015 (https://arxiv.org/html/2606.04694#bib.bib34)\);Lin et al\.\(2020 (https://arxiv.org/html/2606.04694#bib.bib24)\);Ko et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib22),2025 (https://arxiv.org/html/2606.04694#bib.bib20)\) 范式利用更强教师模型(πθT\\pi\_\{\\theta\_\{\\text\{T\}\}\})的信号来引导学生模型(πθ\\pi\_\{\\theta\}),后者通常是参数量更小的对应模型。该方法抽象地优化两个目标,可利用静态真实标签与随机探索相结合:
LTD=\(1−λ\)E\(x,y\)∼D\[D\(πθT\(y\|x\)\|\|πθ\(y\|x\)\)\]\+λEx∼D,y~∼πθ\(x\)\[D\(πθT\(y~\|x\)\|\|πθ\(y~\|x\)\)\],\\begin\{aligned\} \\mathcal\{L\}\_\{\\text\{TD\}\}=&\(1\-\\lambda\)\\mathbb\{E\}\_\{\(x,y\)\\sim\\mathcal\{D\}\}\\left\[D\(\\pi\_\{\\theta\_\{\\text\{T\}\}\}\(y\|x\)\|\|\\pi\_\{\\theta\}\(y\|x\)\)\\right\]\\\\ &\+\\lambda\\mathbb\{E\}\_\{x\\sim\\mathcal\{D\},\\tilde\{y\}\\sim\\pi\_\{\\theta\}\(x\)\}\\left\[D\\left\(\\pi\_\{\\theta\_\{\\text\{T\}\}\}\(\\tilde\{y\}\|x\)\|\|\\pi\_\{\\theta\}\(\\tilde\{y\}\|x\)\\right\)\\right\],\\end\{aligned\}
\(4\)其中 DD 表示散度函数,λ∈\[0,1\]\\lambda~\\in~\[0,1\] 平衡来自真实标签和新生成响应的蒸馏信号。这里,y~\\tilde\{y\} 从教师或学生策略中采样。在离策略 KD 中,SeqKD Kim and Rush \(2016 (https://arxiv.org/html/2606.04694#bib.bib35)\) 基于教师生成的序列训练学生,即 y~∼πθT\(x\)\\tilde\{y\}\\sim\\pi\_\{\\theta\_\{\\mathrm\{T\}\}\}\(x\)。然而,当学生在推理时生成的序列与训练时遇到的序列差异显著时,该方法往往存在训练-推理不匹配问题。为解决这一不匹配,广义知识蒸馏 GKD Agarwal et al\.\(2024 (https://arxiv.org/html/2606.04694#bib.bib36)\) 引入了在策略机制。在 GKD 框架中,学生自行生成响应 y~∼πθ\(x\)\\tilde\{y\}\\sim\\pi\_\{\\theta\}\(x\),而教师提供词元级信号来引导学生输出 logits 以纠正自生成的错误。
如表1 (https://arxiv.org/html/ 所示相似文章
UniSD:面向大型语言模型的统一自蒸馏框架
本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。
GDSD:强化学习作为扩散语言模型的引导式降噪器自蒸馏
GDSD提出了一种强化学习方法,直接从优势引导的自教师中蒸馏扩散语言模型的降噪器,避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上,比先前最先进的方法准确率提升高达+19.6%。
Dolphin-CN-Dialect:中文方言识别的重要性
Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型,通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力,在更小的模型规模下实现了具有竞争力的性能。
MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。
Self-Verified Distillation:你的语言模型实则就是它自己的合成数据流水线
提出了Self-Verified Distillation方法,该方法让LLM从无标注的种子问题中生成候选解决方案,并通过基于提示的自我验证进行筛选,然后在过滤后的数据集上进行训练,从而在Qwen3模型的数学、科学和编程基准测试上取得了显著提升。