Apple~Silicon 平台上的波兰语模型跨模型族系推测解码:基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

arXiv cs.CL 论文

摘要

本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术,通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现,上下文感知的词元翻译能够提升接受率,但统一内存的带宽限制阻碍了理论加速比的摊销,在结构化文本场景下最佳吞吐量增益达 1.7 倍。

arXiv:2604.16368v1 公告类型:新增 摘要:推测解码通过使用轻量级草稿模型提出 k 个候选词元供目标模型验证,从而加速大语言模型推理过程。尽管该技术在高带宽 GPU 上针对同分词器模型配对表现优异,但其在分词器不匹配及消费级统一内存条件下针对跨模型族系的适用性仍缺乏充分研究。我们通过引入通用辅助生成(Universal Assisted Generation, UAG)扩展 MLX-LM 框架,以实现 Apple~Silicon 上的跨分词器推测解码。本研究将 Bielik 11B-Instruct(基于 Mistral)作为目标模型,并搭配三款草稿模型进行测试:采用自定义分词器的 Bielik 1.5B(基于 Qwen)、Qwen2.5-1.5B 以及 Llama 3.2-1B。实验涵盖三个波兰语数据集(Wikipedia、pl_alpaca、合成数据),设置草稿长度 k 为 {2, 4, 6},对比朴素方法与上下文感知词元翻译策略。结果表明:(1)上下文感知翻译在所有配置下均能稳定提升词元接受率;(2)专精波兰语的 Bielik 1.5B 接受率低于面向通用任务的 Qwen2.5 和 Llama 3.2 草稿模型;(3)Apple~Silicon 的吞吐量高度依赖文本类型,结构化文本可实现 1.7 倍加速,但在处理多样化指令时无法达到预期加速;(4)由于目标模型与草稿模型均受内存带宽瓶颈制约,统一内存上的验证成本未能如理论所预期般摊销,导致顺序起草相较于批量验证而言开销过大。我们提出了一种硬件感知加速公式,并明确了在 Apple~Silicon 上应用跨模型族系推测解码的适用条件。本工作是首个针对波兰语大语言模型的跨族系推测解码系统性评估,也是首次在统一内存架构下开展基于 UAG 解码的实证研究。
查看原文

相似文章

jundot/omlx

GitHub Trending (daily)

oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。

通过序列蒙特卡洛加速LLM推理

arXiv cs.CL

本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。