标签
X-Token 引入了两种损失函数(P-KL 和 H-KL),以解决基于 logit 的跨分词器知识蒸馏中的失败模式,使学生模型能够从具有不兼容词汇的教师模型中学习,并在 Llama-3.2-1B 上取得了最先进的结果。
本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术,通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现,上下文感知的词元翻译能够提升接受率,但统一内存的带宽限制阻碍了理论加速比的摊销,在结构化文本场景下最佳吞吐量增益达 1.7 倍。