使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型

Reddit r/LocalLLaMA 新闻

摘要

一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。

如标题所述,我的这台设备确实能够在本地以 ~4 tokens/秒的速度运行一个 1 万亿参数的模型(此处为 Kimi K2.5)。我觉得 r/LocalLLaMA 的用户会对这个配置感兴趣,不仅因为这条性能数据,还因为它包含了一个不寻常的部件——Intel Optane Persistent Memory,我之前没见过有人在 LLM 推理配置中使用它。Optane PMem 是一种 DIMM 外形规格的内存单元,其工作方式介于 DRAM 和 SSD 之间。Intel 已经停产该产品线,我在二手市场上找到了价格远低于同等容量 DRAM 成本的条装。正是这种巨大的 PMem 容量(768GB)让我能在本系统上托管如此庞大的模型。 在我的配置中,我将 PMem 设置为 Memory Mode,即 PMem 作为 RAM 供计算机使用,而计算机的 DRAM 条则充当缓存。Kimi K2.5 的 mixture-of-experts 架构非常适合测试我的配置。为了获得上述结果,我使用了 llama.cpp 进行混合 GPU/CPU 推理。 Kimi K2.5 的(Unsloth Q2_K_XL 量化版)注意力权重、密集层、每个 MoE 层中的共享专家以及路由组件实际上可以通过 llama.cpp 的"override-tensor"标志加载到我的 12GB GPU 上,尽管我也尝试了仅使用 llama.cpp 的"ngl auto"和"cmoe"标志并让 llama.cpp 自行决定张量放置位置的效果,结果也不错。无论如何,稀疏专家的权重(模型大小的主体)通常驻留在 PMem/DRAM 上,并根据需要从那里进行处理。使用此设置进行测试的最终生成速度约为每秒 4 tokens!考虑到这是一个前沿级别的万亿参数模型,且运行在这样的有限硬件预算下,我会认为这是一次巨大的成功。 遗憾的是 Intel 停用了 Optane Persistent Memory,因为当前一些本地推理创新的方向,包括 SSD offloading 和更广泛的内存分级方法,如果结合这种特定的现代硬件平台内存层级,可能会非常有趣。总体而言,我对这款以 Optane PMem 为核心的配置很满意,它让我能够以令人惊讶的可接受速度运行非常大的模型,整个过程也非常具有教育意义。 配件清单: - Intel Xeon Gold 6246 CPU - TYAN S5630GMRE-CGN 主板 - ASUS Dual GeForce RTX 3060 OC 12GB GPU - 6 根 32GB Samsung 2666MHz DDR4 ECC DRAM - 6 个 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS 持久内存模块 - Western Digital WD SN850X 2TB M.2 2280 NVMe SSD - ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics PLATINUM 全模组电源 - Silverstone SST-GD08B (黑) Grandia Series HTPC 机箱 希望你喜欢这次盘点。这里还有很多细节没有包含在内,所以我很乐意在评论区回答关于配置、设定或任何组件选择背后的原因的问题。此外,如果有人探索过类似的非典型硬件/用于 LLM 推理的配置,我很乐意讨论!
查看原文

相似文章

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。