cross-tokenizer

#cross-tokenizer

X-Token: 投影引导的跨分词器知识蒸馏

arXiv cs.LG ↗ · 2026-05-22 缓存

X-Token 引入了两种损失函数（P-KL 和 H-KL），以解决基于 logit 的跨分词器知识蒸馏中的失败模式，使学生模型能够从具有不兼容词汇的教师模型中学习，并在 Llama-3.2-1B 上取得了最先进的结果。

0 人收藏 0 人点赞

#cross-tokenizer

arXiv cs.CL ↗ · 2026-04-21

本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术，通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现，上下文感知的词元翻译能够提升接受率，但统一内存的带宽限制阻碍了理论加速比的摊销，在结构化文本场景下最佳吞吐量增益达 1.7 倍。

0 人收藏 0 人点赞