@Ex0byt: 更新:通往GLM-5.2之路:我们快到了,各位!未量化、未剪枝的DeepSeek-v4-Flash。单台……上11 tok/s

X AI KOLs Timeline 模型

摘要

关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。

更新:通往GLM-5.2之路:我们快到了,各位!未量化、未剪枝的DeepSeek-v4-Flash。单台DGX Spark上11 tok/s。sglang推理 + 自定义mega-kernel。纯粹之美。https://t.co/vRpHIFHqOO
查看原文
查看缓存全文

缓存时间: 2026/06/24 12:23

更新:通往GLM-5.2之路:我们快到了,各位!未量化、未剪枝的DeepSeek-v4-Flash。单块DGX Spark上实现11 tok/s。sglang推理 + 自定义mega-kernel。纯粹之美。https://t.co/vRpHIFHqOO

相似文章

Deepseek V4 flash 在 DGX Spark 上的性能

Reddit r/LocalLLaMA

一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验,详细介绍了性能指标、配置和功耗,并提供了不同上下文长度下的吞吐量基准测试结果。