跨分词器LLM蒸馏:基于字节级接口的方法

Hugging Face Daily Papers 论文

摘要

本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。

跨分词器蒸馏(CTD)是指将知识从教师语言模型迁移到学生语言模型,当两者使用不同的分词器时,这仍然是一个很大程度上未解决的问题。现有方法依赖于启发式策略来对齐不匹配的词汇表,引入了相当大的复杂性。在本文中,我们提出了一种简单而有效的基线方法,称为字节级蒸馏(BLD),它通过在分词器之间的公共接口——字节级别——上操作来实现CTD。具体来说,我们将教师的输出分布转换为字节级概率,为学生附加一个轻量级的字节级解码器头部,并通过这个共享的字节级接口进行蒸馏。尽管方法简单,BLD在一系列蒸馏任务中(模型参数从1B到8B)与更复杂的CTD方法相比具有竞争力,并且在多个基准测试上超越了它们。我们的结果表明,字节级是跨分词器知识迁移的自然共同基础,同时也强调了在所有任务和基准测试上持续改进仍然难以实现,这凸显了CTD仍然是一个开放性问题。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

Paper page - Cross-Tokenizer LLM Distillation through a Byte-Level Interface

来源: https://huggingface.co/papers/2604.07466

摘要

字节级蒸馏 (Byte-Level Distillation) 通过在字节层级进行操作,实现了跨分词器的知识迁移,其性能与现有的复杂方法相比具有竞争力。

跨分词器蒸馏 (Cross-tokenizer distillation, CTD),即在教师和学生语言模型使用不同分词器时将知识从教师迁移到学生,仍是一个尚未完全解决的问题。现有方法依赖启发式策略来对齐不匹配的词表,引入了相当的复杂性。本文提出了一个简单但有效的基线方法——字节级蒸馏 (Byte-Level Distillation, BLD),通过在跨分词器的通用接口——字节级 (byte level) 上进行操作来实现 CTD。具体而言,我们将教师的输出分布转换为字节级概率,为学生附加一个轻量级的字节级解码头,并通过这个共享的字节级接口进行蒸馏。尽管方法简单,BLD 在一系列蒸馏任务中,使用 1B 到 8B 参数的模型,其表现与更为复杂的 CTD 方法相当,甚至在若干基准上超越了它们。我们的结果表明,字节级 (byte level) 是跨分词器知识迁移的自然共通基础,同时也揭示了在所有任务和基准上持续改进仍难以实现,凸显了 CTD 仍是一个开放问题。

查看 arXiv 页面 (https://arxiv.org/abs/2604.07466)查看 PDF (https://arxiv.org/pdf/2604.07466)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.07466)

在您的智能体中获取这篇论文:

hf papers read 2604.07466

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

包含此论文的收藏1

相似文章

X-Token: 投影引导的跨分词器知识蒸馏

arXiv cs.LG

X-Token 引入了两种损失函数(P-KL 和 H-KL),以解决基于 logit 的跨分词器知识蒸馏中的失败模式,使学生模型能够从具有不兼容词汇的教师模型中学习,并在 Llama-3.2-1B 上取得了最先进的结果。

快速字节潜在Transformer

Hugging Face Daily Papers

本文介绍了用于字节级语言模型的BLT扩散(BLT Diffusion)和投机解码技术,在保持生成质量的同时,显著降低了生成延迟和内存带宽成本。