Apple~Silicon 平台上的波兰语模型跨模型族系推测解码:基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估
摘要
本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术,通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现,上下文感知的词元翻译能够提升接受率,但统一内存的带宽限制阻碍了理论加速比的摊销,在结构化文本场景下最佳吞吐量增益达 1.7 倍。
arXiv:2604.16368v1 公告类型:新增
摘要:推测解码通过使用轻量级草稿模型提出 k 个候选词元供目标模型验证,从而加速大语言模型推理过程。尽管该技术在高带宽 GPU 上针对同分词器模型配对表现优异,但其在分词器不匹配及消费级统一内存条件下针对跨模型族系的适用性仍缺乏充分研究。我们通过引入通用辅助生成(Universal Assisted Generation, UAG)扩展 MLX-LM 框架,以实现 Apple~Silicon 上的跨分词器推测解码。本研究将 Bielik 11B-Instruct(基于 Mistral)作为目标模型,并搭配三款草稿模型进行测试:采用自定义分词器的 Bielik 1.5B(基于 Qwen)、Qwen2.5-1.5B 以及 Llama 3.2-1B。实验涵盖三个波兰语数据集(Wikipedia、pl_alpaca、合成数据),设置草稿长度 k 为 {2, 4, 6},对比朴素方法与上下文感知词元翻译策略。结果表明:(1)上下文感知翻译在所有配置下均能稳定提升词元接受率;(2)专精波兰语的 Bielik 1.5B 接受率低于面向通用任务的 Qwen2.5 和 Llama 3.2 草稿模型;(3)Apple~Silicon 的吞吐量高度依赖文本类型,结构化文本可实现 1.7 倍加速,但在处理多样化指令时无法达到预期加速;(4)由于目标模型与草稿模型均受内存带宽瓶颈制约,统一内存上的验证成本未能如理论所预期般摊销,导致顺序起草相较于批量验证而言开销过大。我们提出了一种硬件感知加速公式,并明确了在 Apple~Silicon 上应用跨模型族系推测解码的适用条件。本工作是首个针对波兰语大语言模型的跨族系推测解码系统性评估,也是首次在统一内存架构下开展基于 UAG 解码的实证研究。
相似文章
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。
跨语言的推测解码
本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。
我在Apple Silicon上使用MLX和OpenClaw集成了新的δ-mem研究!我的发现
作者使用MLX和OpenClaw在Apple Silicon上实现了δ-mem研究论文,展示了在本地AI代理测试中的内存和注意力改进,尽管与CUDA基准相比结果好坏参半。
什么是推测性解码?(在paperswithco.de上热门)[R]
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。