使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型

Reddit r/LocalLLaMA 2026/05/11 19:54 新闻

local-llm-inference intel-optane hardware-build kimi-k25 llama-cpp memory-tiering

摘要

一位社区成员详细介绍了这款定制 PC 组装方案，利用已停产的 Intel Optane Persistent Memory，成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。

如标题所述，我的这台设备确实能够在本地以 ~4 tokens/秒的速度运行一个 1 万亿参数的模型（此处为 Kimi K2.5）。我觉得 r/LocalLLaMA 的用户会对这个配置感兴趣，不仅因为这条性能数据，还因为它包含了一个不寻常的部件——Intel Optane Persistent Memory，我之前没见过有人在 LLM 推理配置中使用它。Optane PMem 是一种 DIMM 外形规格的内存单元，其工作方式介于 DRAM 和 SSD 之间。Intel 已经停产该产品线，我在二手市场上找到了价格远低于同等容量 DRAM 成本的条装。正是这种巨大的 PMem 容量（768GB）让我能在本系统上托管如此庞大的模型。在我的配置中，我将 PMem 设置为 Memory Mode，即 PMem 作为 RAM 供计算机使用，而计算机的 DRAM 条则充当缓存。Kimi K2.5 的 mixture-of-experts 架构非常适合测试我的配置。为了获得上述结果，我使用了 llama.cpp 进行混合 GPU/CPU 推理。 Kimi K2.5 的（Unsloth Q2_K_XL 量化版）注意力权重、密集层、每个 MoE 层中的共享专家以及路由组件实际上可以通过 llama.cpp 的"override-tensor"标志加载到我的 12GB GPU 上，尽管我也尝试了仅使用 llama.cpp 的"ngl auto"和"cmoe"标志并让 llama.cpp 自行决定张量放置位置的效果，结果也不错。无论如何，稀疏专家的权重（模型大小的主体）通常驻留在 PMem/DRAM 上，并根据需要从那里进行处理。使用此设置进行测试的最终生成速度约为每秒 4 tokens！考虑到这是一个前沿级别的万亿参数模型，且运行在这样的有限硬件预算下，我会认为这是一次巨大的成功。遗憾的是 Intel 停用了 Optane Persistent Memory，因为当前一些本地推理创新的方向，包括 SSD offloading 和更广泛的内存分级方法，如果结合这种特定的现代硬件平台内存层级，可能会非常有趣。总体而言，我对这款以 Optane PMem 为核心的配置很满意，它让我能够以令人惊讶的可接受速度运行非常大的模型，整个过程也非常具有教育意义。配件清单： - Intel Xeon Gold 6246 CPU - TYAN S5630GMRE-CGN 主板 - ASUS Dual GeForce RTX 3060 OC 12GB GPU - 6 根 32GB Samsung 2666MHz DDR4 ECC DRAM - 6 个 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS 持久内存模块 - Western Digital WD SN850X 2TB M.2 2280 NVMe SSD - ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics PLATINUM 全模组电源 - Silverstone SST-GD08B (黑) Grandia Series HTPC 机箱希望你喜欢这次盘点。这里还有很多细节没有包含在内，所以我很乐意在评论区回答关于配置、设定或任何组件选择背后的原因的问题。此外，如果有人探索过类似的非典型硬件/用于 LLM 推理的配置，我很乐意讨论！

查看原文

使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型

相似文章

2台配备 512GB 内存的 M3 Ultra Mac Studio

@jun_song：正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s，并尽可能减少质量损失。

@0xSero：本地部署（一）—— Apple Silicon Mac 拥有大内存池可跑大模型，但 token 生成速度会……

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

@QuixiAI：@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps（单请求），接下来做吞吐测试

提交意见反馈