@Ex0byt: 更新：通往GLM-5.2之路：我们快到了，各位！未量化、未剪枝的DeepSeek-v4-Flash。单台……上11 tok/s

X AI KOLs Timeline 2026/06/23 22:06 模型

on-device inference optimization deepseek sglang dgx-spark

摘要

关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新，正在向GLM-5.2迈进。

更新：通往GLM-5.2之路：我们快到了，各位！未量化、未剪枝的DeepSeek-v4-Flash。单台DGX Spark上11 tok/s。sglang推理 + 自定义mega-kernel。纯粹之美。https://t.co/vRpHIFHqOO

查看原文

查看缓存全文

缓存时间: 2026/06/24 12:23

更新：通往GLM-5.2之路：我们快到了，各位！未量化、未剪枝的DeepSeek-v4-Flash。单块DGX Spark上实现11 tok/s。sglang推理 + 自定义mega-kernel。纯粹之美。https://t.co/vRpHIFHqOO

相似文章

Reddit r/LocalLLaMA

一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验，详细介绍了性能指标、配置和功耗，并提供了不同上下文长度下的吞吐量基准测试结果。

X AI KOLs Timeline

一位开发者经过大量实验，成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型，使用的是来自 antirez 的未经修改的 GGUF 文件。

X AI KOLs Following

antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本，使该模型能够在单张 GPU（如 RTX Pro 6000）以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face，并附有 DS4 推理引擎的使用说明。

X AI KOLs Timeline

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

X AI KOLs Following

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎。