跨分词器LLM蒸馏:基于字节级接口的方法

Hugging Face Daily Papers 论文

摘要

本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。

跨分词器蒸馏(CTD)是指将知识从教师语言模型迁移到学生语言模型,当两者使用不同的分词器时,这仍然是一个很大程度上未解决的问题。现有方法依赖于启发式策略来对齐不匹配的词汇表,引入了相当大的复杂性。在本文中,我们提出了一种简单而有效的基线方法,称为字节级蒸馏(BLD),它通过在分词器之间的公共接口——字节级别——上操作来实现CTD。具体来说,我们将教师的输出分布转换为字节级概率,为学生附加一个轻量级的字节级解码器头部,并通过这个共享的字节级接口进行蒸馏。尽管方法简单,BLD在一系列蒸馏任务中(模型参数从1B到8B)与更复杂的CTD方法相比具有竞争力,并且在多个基准测试上超越了它们。我们的结果表明,字节级是跨分词器知识迁移的自然共同基础,同时也强调了在所有任务和基准测试上持续改进仍然难以实现,这凸显了CTD仍然是一个开放性问题。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:29

Paper page - Cross-Tokenizer LLM Distillation through a Byte-Level Interface

来源: https://huggingface.co/papers/2604.07466

摘要

字节级蒸馏 (Byte-Level Distillation) 通过在字节层级进行操作,实现了跨分词器的知识迁移,其性能与现有的复杂方法相比具有竞争力。

跨分词器蒸馏 (Cross-tokenizer distillation, CTD),即在教师和学生语言模型使用不同分词器时将知识从教师迁移到学生,仍是一个尚未完全解决的问题。现有方法依赖启发式策略来对齐不匹配的词表,引入了相当的复杂性。本文提出了一个简单但有效的基线方法——字节级蒸馏 (Byte-Level Distillation, BLD),通过在跨分词器的通用接口——字节级 (byte level) 上进行操作来实现 CTD。具体而言,我们将教师的输出分布转换为字节级概率,为学生附加一个轻量级的字节级解码头,并通过这个共享的字节级接口进行蒸馏。尽管方法简单,BLD 在一系列蒸馏任务中,使用 1B 到 8B 参数的模型,其表现与更为复杂的 CTD 方法相当,甚至在若干基准上超越了它们。我们的结果表明,字节级 (byte level) 是跨分词器知识迁移的自然共通基础,同时也揭示了在所有任务和基准上持续改进仍难以实现,凸显了 CTD 仍是一个开放问题。

查看 arXiv 页面 (https://arxiv.org/abs/2604.07466)查看 PDF (https://arxiv.org/pdf/2604.07466)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.07466)

在您的智能体中获取这篇论文:

hf papers read 2604.07466

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

包含此论文的收藏1

相似文章

Switch-KD:面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。

令牌统计揭示多轮大语言模型交互中的对话漂移

arXiv cs.CL

本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混