Apple~Silicon 平台上的波兰语模型跨模型族系推测解码:基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估
摘要
本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术,通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现,上下文感知的词元翻译能够提升接受率,但统一内存的带宽限制阻碍了理论加速比的摊销,在结构化文本场景下最佳吞吐量增益达 1.7 倍。
arXiv:2604.16368v1 公告类型:新增
摘要:推测解码通过使用轻量级草稿模型提出 k 个候选词元供目标模型验证,从而加速大语言模型推理过程。尽管该技术在高带宽 GPU 上针对同分词器模型配对表现优异,但其在分词器不匹配及消费级统一内存条件下针对跨模型族系的适用性仍缺乏充分研究。我们通过引入通用辅助生成(Universal Assisted Generation, UAG)扩展 MLX-LM 框架,以实现 Apple~Silicon 上的跨分词器推测解码。本研究将 Bielik 11B-Instruct(基于 Mistral)作为目标模型,并搭配三款草稿模型进行测试:采用自定义分词器的 Bielik 1.5B(基于 Qwen)、Qwen2.5-1.5B 以及 Llama 3.2-1B。实验涵盖三个波兰语数据集(Wikipedia、pl_alpaca、合成数据),设置草稿长度 k 为 {2, 4, 6},对比朴素方法与上下文感知词元翻译策略。结果表明:(1)上下文感知翻译在所有配置下均能稳定提升词元接受率;(2)专精波兰语的 Bielik 1.5B 接受率低于面向通用任务的 Qwen2.5 和 Llama 3.2 草稿模型;(3)Apple~Silicon 的吞吐量高度依赖文本类型,结构化文本可实现 1.7 倍加速,但在处理多样化指令时无法达到预期加速;(4)由于目标模型与草稿模型均受内存带宽瓶颈制约,统一内存上的验证成本未能如理论所预期般摊销,导致顺序起草相较于批量验证而言开销过大。我们提出了一种硬件感知加速公式,并明确了在 Apple~Silicon 上应用跨模型族系推测解码的适用条件。本工作是首个针对波兰语大语言模型的跨族系推测解码系统性评估,也是首次在统一内存架构下开展基于 UAG 解码的实证研究。
相似文章
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
@AlexJonesax: 如果你在 Mac 上运行 LLM,值得了解的两个开源 MLX 推理服务器:MTPLX (@youssofal) 利用模型自身的…
本文介绍了两个适用于 Mac 的开源 MLX 推理服务器:MTPLX 通过投机解码(无需草稿模型)优化 token 生成速度,而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。
jundot/omlx
oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。
通过序列蒙特卡洛加速LLM推理
本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。
@0xSero:本地部署(一)—— Apple Silicon Mac 拥有大内存池可跑大模型,但 token 生成速度会……
Apple Silicon Mac 提供大内存池运行大模型,但 token 生成较慢,最适合活跃参数量低的大型 MoE 模型。