跨分词器LLM蒸馏：基于字节级接口的方法

Hugging Face Daily Papers 2026/04/13 00:00 论文

摘要

本文提出字节级蒸馏（BLD），一种简单的跨分词器知识迁移方法，通过在共享的字节级接口上操作，在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。

跨分词器蒸馏（CTD）是指将知识从教师语言模型迁移到学生语言模型，当两者使用不同的分词器时，这仍然是一个很大程度上未解决的问题。现有方法依赖于启发式策略来对齐不匹配的词汇表，引入了相当大的复杂性。在本文中，我们提出了一种简单而有效的基线方法，称为字节级蒸馏（BLD），它通过在分词器之间的公共接口——字节级别——上操作来实现CTD。具体来说，我们将教师的输出分布转换为字节级概率，为学生附加一个轻量级的字节级解码器头部，并通过这个共享的字节级接口进行蒸馏。尽管方法简单，BLD在一系列蒸馏任务中（模型参数从1B到8B）与更复杂的CTD方法相比具有竞争力，并且在多个基准测试上超越了它们。我们的结果表明，字节级是跨分词器知识迁移的自然共同基础，同时也强调了在所有任务和基准测试上持续改进仍然难以实现，这凸显了CTD仍然是一个开放性问题。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:29

Paper page - Cross-Tokenizer LLM Distillation through a Byte-Level Interface

来源: https://huggingface.co/papers/2604.07466

摘要

字节级蒸馏 (Byte-Level Distillation) 通过在字节层级进行操作，实现了跨分词器的知识迁移，其性能与现有的复杂方法相比具有竞争力。

跨分词器蒸馏 (Cross-tokenizer distillation, CTD)，即在教师和学生语言模型使用不同分词器时将知识从教师迁移到学生，仍是一个尚未完全解决的问题。现有方法依赖启发式策略来对齐不匹配的词表，引入了相当的复杂性。本文提出了一个简单但有效的基线方法——字节级蒸馏 (Byte-Level Distillation, BLD)，通过在跨分词器的通用接口——字节级 (byte level) 上进行操作来实现 CTD。具体而言，我们将教师的输出分布转换为字节级概率，为学生附加一个轻量级的字节级解码头，并通过这个共享的字节级接口进行蒸馏。尽管方法简单，BLD 在一系列蒸馏任务中，使用 1B 到 8B 参数的模型，其表现与更为复杂的 CTD 方法相当，甚至在若干基准上超越了它们。我们的结果表明，字节级 (byte level) 是跨分词器知识迁移的自然共通基础，同时也揭示了在所有任务和基准上持续改进仍难以实现，凸显了 CTD 仍是一个开放问题。

查看 arXiv 页面 (https://arxiv.org/abs/2604.07466)查看 PDF (https://arxiv.org/pdf/2604.07466)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.07466)

在您的智能体中获取这篇论文：

hf papers read 2604.07466

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.07466 以在此页面链接。

跨分词器LLM蒸馏：基于字节级接口的方法

Paper page - Cross-Tokenizer LLM Distillation through a Byte-Level Interface

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏1

相似文章

Switch-KD：面向视觉语言模型的视觉开关知识蒸馏

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

令牌统计揭示多轮大语言模型交互中的对话漂移

大语言模型预训练的数据混合：综述与展望

混合策略蒸馏（HPD）：面向大模型的统一知识蒸馏

提交意见反馈