gh200

#gh200

我进行了一些模型优化技巧，将GH200系统上的GLM5.2从约2.5 tok/s提升至超过50 tok/s。

Reddit r/LocalLLaMA ↗ · 2天前缓存

一篇详细博客文章，描述了如何通过停止模型跨模块通信，并将FP8 MTP头部嫁接至INT4基础模型上，将双Grace Hopper系统上的GLM-5.2推理速度从2.5 tok/s显著提升到超过50 tok/s。

0 人收藏 0 人点赞

#gh200

Reddit r/LocalLLaMA ↗ · 2026-06-08 缓存

这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理，达到近200令牌/秒的技巧和基准测试，重点介绍了使用Canada-Quant的量化检查点和张量并行优化。

0 人收藏 0 人点赞