在4× DGX Spark (GB10)上成功运行GLM-5.2 + MTP投机解码——并发现公开构建配方中缺失的组件

Reddit r/LocalLLaMA 新闻

摘要

作者在4× DGX Spark (GB10)设备上成功运行了配备MTP投机解码的GLM-5.2,并揭示了公开构建配方中缺失的一个组件。

暂无内容
查看原文

相似文章

MLX 上新的 Gemma 4 MTP?

Reddit r/LocalLLaMA

Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。