model-hacks

标签

Cards List
#model-hacks

我进行了一些模型优化技巧,将GH200系统上的GLM5.2从约2.5 tok/s提升至超过50 tok/s。

Reddit r/LocalLLaMA · 昨天 缓存

一篇详细博客文章,描述了如何通过停止模型跨模块通信,并将FP8 MTP头部嫁接至INT4基础模型上,将双Grace Hopper系统上的GLM-5.2推理速度从2.5 tok/s显著提升到超过50 tok/s。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈