在4× DGX Spark (GB10)上成功运行GLM-5.2 + MTP投机解码——并发现公开构建配方中缺失的组件
摘要
作者在4× DGX Spark (GB10)设备上成功运行了配备MTP投机解码的GLM-5.2,并揭示了公开构建配方中缺失的一个组件。
暂无内容
相似文章
@Ex0byt: 更新:通往GLM-5.2之路:我们快到了,各位!未量化、未剪枝的DeepSeek-v4-Flash。单台……上11 tok/s
关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。
MLX 上新的 Gemma 4 MTP?
Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。
google/gemma-4-26B-A4B-it-assistant
Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。
我进行了一些模型优化技巧,将GH200系统上的GLM5.2从约2.5 tok/s提升至超过50 tok/s。
一篇详细博客文章,描述了如何通过停止模型跨模块通信,并将FP8 MTP头部嫁接至INT4基础模型上,将双Grace Hopper系统上的GLM-5.2推理速度从2.5 tok/s显著提升到超过50 tok/s。
GLM 5.2 在 4 个 Sparks 上运行是否合理?
用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性,想知道在 100k 上下文下的速度和内存情况。