Apple~Silicon 平台上的波兰语模型跨模型族系推测解码:基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

arXiv cs.CL 论文

摘要

本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术,通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现,上下文感知的词元翻译能够提升接受率,但统一内存的带宽限制阻碍了理论加速比的摊销,在结构化文本场景下最佳吞吐量增益达 1.7 倍。

arXiv:2604.16368v1 公告类型:新增 摘要:推测解码通过使用轻量级草稿模型提出 k 个候选词元供目标模型验证,从而加速大语言模型推理过程。尽管该技术在高带宽 GPU 上针对同分词器模型配对表现优异,但其在分词器不匹配及消费级统一内存条件下针对跨模型族系的适用性仍缺乏充分研究。我们通过引入通用辅助生成(Universal Assisted Generation, UAG)扩展 MLX-LM 框架,以实现 Apple~Silicon 上的跨分词器推测解码。本研究将 Bielik 11B-Instruct(基于 Mistral)作为目标模型,并搭配三款草稿模型进行测试:采用自定义分词器的 Bielik 1.5B(基于 Qwen)、Qwen2.5-1.5B 以及 Llama 3.2-1B。实验涵盖三个波兰语数据集(Wikipedia、pl_alpaca、合成数据),设置草稿长度 k 为 {2, 4, 6},对比朴素方法与上下文感知词元翻译策略。结果表明:(1)上下文感知翻译在所有配置下均能稳定提升词元接受率;(2)专精波兰语的 Bielik 1.5B 接受率低于面向通用任务的 Qwen2.5 和 Llama 3.2 草稿模型;(3)Apple~Silicon 的吞吐量高度依赖文本类型,结构化文本可实现 1.7 倍加速,但在处理多样化指令时无法达到预期加速;(4)由于目标模型与草稿模型均受内存带宽瓶颈制约,统一内存上的验证成本未能如理论所预期般摊销,导致顺序起草相较于批量验证而言开销过大。我们提出了一种硬件感知加速公式,并明确了在 Apple~Silicon 上应用跨模型族系推测解码的适用条件。本工作是首个针对波兰语大语言模型的跨族系推测解码系统性评估,也是首次在统一内存架构下开展基于 UAG 解码的实证研究。
查看原文

相似文章

跨语言的推测解码

arXiv cs.CL

本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。

什么是推测性解码?(在paperswithco.de上热门)[R]

Reddit r/MachineLearning

推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。