跨分词器LLM蒸馏:基于字节级接口的方法
摘要
本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。
查看缓存全文
缓存时间: 2026/04/20 08:29
Paper page - Cross-Tokenizer LLM Distillation through a Byte-Level Interface
来源: https://huggingface.co/papers/2604.07466
摘要
字节级蒸馏 (Byte-Level Distillation) 通过在字节层级进行操作,实现了跨分词器的知识迁移,其性能与现有的复杂方法相比具有竞争力。
跨分词器蒸馏 (Cross-tokenizer distillation, CTD),即在教师和学生语言模型使用不同分词器时将知识从教师迁移到学生,仍是一个尚未完全解决的问题。现有方法依赖启发式策略来对齐不匹配的词表,引入了相当的复杂性。本文提出了一个简单但有效的基线方法——字节级蒸馏 (Byte-Level Distillation, BLD),通过在跨分词器的通用接口——字节级 (byte level) 上进行操作来实现 CTD。具体而言,我们将教师的输出分布转换为字节级概率,为学生附加一个轻量级的字节级解码头,并通过这个共享的字节级接口进行蒸馏。尽管方法简单,BLD 在一系列蒸馏任务中,使用 1B 到 8B 参数的模型,其表现与更为复杂的 CTD 方法相当,甚至在若干基准上超越了它们。我们的结果表明,字节级 (byte level) 是跨分词器知识迁移的自然共通基础,同时也揭示了在所有任务和基准上持续改进仍难以实现,凸显了 CTD 仍是一个开放问题。
查看 arXiv 页面 (https://arxiv.org/abs/2604.07466)查看 PDF (https://arxiv.org/pdf/2604.07466)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.07466)
在您的智能体中获取这篇论文:
hf papers read 2604.07466
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。
包含此论文的收藏1
相似文章
X-Token: 投影引导的跨分词器知识蒸馏
X-Token 引入了两种损失函数(P-KL 和 H-KL),以解决基于 logit 的跨分词器知识蒸馏中的失败模式,使学生模型能够从具有不兼容词汇的教师模型中学习,并在 Llama-3.2-1B 上取得了最先进的结果。
通过字节级模拟解耦子词分词对语言模型训练的益处
本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。
快速字节潜在Transformer
本文介绍了用于字节级语言模型的BLT扩散(BLT Diffusion)和投机解码技术,在保持生成质量的同时,显著降低了生成延迟和内存带宽成本。
@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收!字节级语言模型有望摆脱子词分词器,但解码……
快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。
BitLM:利用位级连续扩散解锁多 Token 语言生成
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。