Apple~Silicon 平台上的波兰语模型跨模型族系推测解码：基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

arXiv cs.CL 2026/04/21 04:00 论文

speculative-decoding apple-silicon polish-language llm-inference cross-tokenizer mlx-lm empirical-evaluation

摘要

本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术，通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现，上下文感知的词元翻译能够提升接受率，但统一内存的带宽限制阻碍了理论加速比的摊销，在结构化文本场景下最佳吞吐量增益达 1.7 倍。

arXiv:2604.16368v1 公告类型：新增摘要：推测解码通过使用轻量级草稿模型提出 k 个候选词元供目标模型验证，从而加速大语言模型推理过程。尽管该技术在高带宽 GPU 上针对同分词器模型配对表现优异，但其在分词器不匹配及消费级统一内存条件下针对跨模型族系的适用性仍缺乏充分研究。我们通过引入通用辅助生成（Universal Assisted Generation, UAG）扩展 MLX-LM 框架，以实现 Apple~Silicon 上的跨分词器推测解码。本研究将 Bielik 11B-Instruct（基于 Mistral）作为目标模型，并搭配三款草稿模型进行测试：采用自定义分词器的 Bielik 1.5B（基于 Qwen）、Qwen2.5-1.5B 以及 Llama 3.2-1B。实验涵盖三个波兰语数据集（Wikipedia、pl_alpaca、合成数据），设置草稿长度 k 为 {2, 4, 6}，对比朴素方法与上下文感知词元翻译策略。结果表明：（1）上下文感知翻译在所有配置下均能稳定提升词元接受率；（2）专精波兰语的 Bielik 1.5B 接受率低于面向通用任务的 Qwen2.5 和 Llama 3.2 草稿模型；（3）Apple~Silicon 的吞吐量高度依赖文本类型，结构化文本可实现 1.7 倍加速，但在处理多样化指令时无法达到预期加速；（4）由于目标模型与草稿模型均受内存带宽瓶颈制约，统一内存上的验证成本未能如理论所预期般摊销，导致顺序起草相较于批量验证而言开销过大。我们提出了一种硬件感知加速公式，并明确了在 Apple~Silicon 上应用跨模型族系推测解码的适用条件。本工作是首个针对波兰语大语言模型的跨族系推测解码系统性评估，也是首次在统一内存架构下开展基于 UAG 解码的实证研究。

查看原文

Apple~Silicon 平台上的波兰语模型跨模型族系推测解码：基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

相似文章

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

jundot/omlx

通过序列蒙特卡洛加速LLM推理

@0xSero：本地部署（一）—— Apple Silicon Mac 拥有大内存池可跑大模型，但 token 生成速度会……

提交意见反馈