将大型模型卸载到系统内存时的性能表现?

Reddit r/LocalLLaMA 新闻

摘要

讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡,比较了不同GPU配置(如RTX 5090与RTX6000)在运行DeepSeek V4 Pro等模型时的表现。

我注意到,对于运行大型模型或那些将所有权重放入GPU显存成本过高的场景,主流策略是使用一块大容量系统DRAM的单个GPU来卸载权重,因为每GB显存总是比普通DDR5更贵。然而,如果是这样,那么拥有大容量显存池还有优势吗?或者说,例如,在RTX 5090(48GB)上运行Deepseek V4 Pro与在RTX6000(96GB)上运行会有区别吗?由于专家切换相当频繁,且有时在连续token之间会有所不同,专家是否必须不断在显存和系统内存之间交换?如果是这样,更大、更快的GPU是否仅对更好的预填充性能有价值,因为在解码阶段,专家的持续流受到系统内存带宽(甚至可能是PCIe带宽)的限制?假设系统配置相同,仅GPU分别为5090和RTX6000,解码时的性能是否会相同?然而,如果能在显存中存储多个专家,下一个专家就有可能被缓存于显存中。那么,随着显存中可容纳的专家数量增加,性能会如何扩展?如果为Deepseek v4 Pro构建系统,使用两块RTX6000是否比一块更合理?还是需要将绝大多数专家都放入显存才能产生显著差异?想听听大家的看法。
查看原文

相似文章

内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。

Rotary GPU:在有限显存下探索大型MoE模型的本地执行

Hacker News Top

本文介绍了Rotary GPU,一种探索性的执行方法,能够在有限显存的消费级硬件上运行大型混合专家(MoE)模型,在配备8GB显存的RTX 4060上达到21 tokens/s的速度。该方法关注部署的可行性而非架构改进。