将大型模型卸载到系统内存时的性能表现？

Reddit r/LocalLLaMA 2026/05/24 02:46 新闻

large-language-models offloading gpu-vram system-ram deepseek model-performance hardware

摘要

讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡，比较了不同GPU配置（如RTX 5090与RTX6000）在运行DeepSeek V4 Pro等模型时的表现。

我注意到，对于运行大型模型或那些将所有权重放入GPU显存成本过高的场景，主流策略是使用一块大容量系统DRAM的单个GPU来卸载权重，因为每GB显存总是比普通DDR5更贵。然而，如果是这样，那么拥有大容量显存池还有优势吗？或者说，例如，在RTX 5090（48GB）上运行Deepseek V4 Pro与在RTX6000（96GB）上运行会有区别吗？由于专家切换相当频繁，且有时在连续token之间会有所不同，专家是否必须不断在显存和系统内存之间交换？如果是这样，更大、更快的GPU是否仅对更好的预填充性能有价值，因为在解码阶段，专家的持续流受到系统内存带宽（甚至可能是PCIe带宽）的限制？假设系统配置相同，仅GPU分别为5090和RTX6000，解码时的性能是否会相同？然而，如果能在显存中存储多个专家，下一个专家就有可能被缓存于显存中。那么，随着显存中可容纳的专家数量增加，性能会如何扩展？如果为Deepseek v4 Pro构建系统，使用两块RTX6000是否比一块更合理？还是需要将绝大多数专家都放入显存才能产生显著差异？想听听大家的看法。

查看原文

将大型模型卸载到系统内存时的性能表现？

相似文章

内存富裕/显卡贫瘠的人错了吗？

Rotary GPU：在有限显存下探索大型MoE模型的本地执行

本地LLM CPU用户……你们做任何事情要花多长时间？

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

提交意见反馈