以合理量化运行GLM2的方案构想,求批评与反馈

Reddit r/LocalLLaMA 新闻

摘要

一位用户提出使用四块RTX 5060 Ti GPU和512GB DDR3服务器内存的硬件配置,以合理的量化方式运行GLM2,并就此方案的可行性寻求反馈。

我目前运行一个4×5060 Ti P2P系统(总共64GB显存),每张卡运行在PCIe 3.0×4通道上,仅用于推理。在基准测试中,对于低并发推理任务(如单用户场景),瓶颈是算力而非PCIe带宽。这给了我一个想法:既然我的卡已经在PCIe 3.0上运行,我可以购入512GB的DDR3 16GB内存条、一台具有16条专用PCIe通道用于x16插槽且支持4×4分叉的PCIe 3.0服务器,这样或许能实现性价比最高的GLM2配置,以合理量化运行,避免统一内存集群带来的每秒5个tokens的低速。例如,SuperMicro X9DRi-F / X9DR3-F支持16个DIMM插槽,最大512GB内存。512GB的DDR3服务器内存大约500美元。如果努力寻找优惠,可以425美元买到一张16GB版的5060 Ti。所以GPU成本1700美元,加上内存500美元,再加上主板和CPU的成本。用这些GPU,你可以在我之前的帖子提到的显存条件下,以bf16 KV缓存运行Qwen/Qwen3.6-27B-FP8,在最大上下文262k下达到每秒72个tokens。我是否漏掉了什么,还是这个方案对于运行GLM2是可行的?
查看原文

相似文章