在4× DGX Spark (GB10)上成功运行GLM-5.2 + MTP投机解码——并发现公开构建配方中缺失的组件

Reddit r/LocalLLaMA 2026/06/24 21:23 新闻

glm-5-2 speculative-decoding dgx-spark gb10 inference nvidia

摘要

作者在4× DGX Spark (GB10)设备上成功运行了配备MTP投机解码的GLM-5.2，并揭示了公开构建配方中缺失的一个组件。

暂无内容

查看原文

相似文章

X AI KOLs Timeline

关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新，正在向GLM-5.2迈进。

Reddit r/LocalLLaMA

Google 发布了用于 Gemma 4 的多 token 预测草稿器，通过推测性解码加速推理，但目前对 MLX 的支持尚未确认或不可用。

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 MTP 草稿模型（drafter），适用于 Gemma 4 系列模型，通过推测解码（speculative decoding）实现显著的解码加速，同时保持完全一致的生成质量，适用于低延迟应用场景。

Reddit r/LocalLLaMA

一篇详细博客文章，描述了如何通过停止模型跨模块通信，并将FP8 MTP头部嫁接至INT4基础模型上，将双Grace Hopper系统上的GLM-5.2推理速度从2.5 tok/s显著提升到超过50 tok/s。

Reddit r/LocalLLaMA

用户询问在四个 Ascend GX10 或 DGX Sparks 上以 4 位量化运行 GLM-5.2 的可行性，想知道在 100k 上下文下的速度和内存情况。