使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型
摘要
一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。
如标题所述,我的这台设备确实能够在本地以 ~4 tokens/秒的速度运行一个 1 万亿参数的模型(此处为 Kimi K2.5)。我觉得 r/LocalLLaMA 的用户会对这个配置感兴趣,不仅因为这条性能数据,还因为它包含了一个不寻常的部件——Intel Optane Persistent Memory,我之前没见过有人在 LLM 推理配置中使用它。Optane PMem 是一种 DIMM 外形规格的内存单元,其工作方式介于 DRAM 和 SSD 之间。Intel 已经停产该产品线,我在二手市场上找到了价格远低于同等容量 DRAM 成本的条装。正是这种巨大的 PMem 容量(768GB)让我能在本系统上托管如此庞大的模型。
在我的配置中,我将 PMem 设置为 Memory Mode,即 PMem 作为 RAM 供计算机使用,而计算机的 DRAM 条则充当缓存。Kimi K2.5 的 mixture-of-experts 架构非常适合测试我的配置。为了获得上述结果,我使用了 llama.cpp 进行混合 GPU/CPU 推理。
Kimi K2.5 的(Unsloth Q2_K_XL 量化版)注意力权重、密集层、每个 MoE 层中的共享专家以及路由组件实际上可以通过 llama.cpp 的"override-tensor"标志加载到我的 12GB GPU 上,尽管我也尝试了仅使用 llama.cpp 的"ngl auto"和"cmoe"标志并让 llama.cpp 自行决定张量放置位置的效果,结果也不错。无论如何,稀疏专家的权重(模型大小的主体)通常驻留在 PMem/DRAM 上,并根据需要从那里进行处理。使用此设置进行测试的最终生成速度约为每秒 4 tokens!考虑到这是一个前沿级别的万亿参数模型,且运行在这样的有限硬件预算下,我会认为这是一次巨大的成功。
遗憾的是 Intel 停用了 Optane Persistent Memory,因为当前一些本地推理创新的方向,包括 SSD offloading 和更广泛的内存分级方法,如果结合这种特定的现代硬件平台内存层级,可能会非常有趣。总体而言,我对这款以 Optane PMem 为核心的配置很满意,它让我能够以令人惊讶的可接受速度运行非常大的模型,整个过程也非常具有教育意义。
配件清单:
- Intel Xeon Gold 6246 CPU
- TYAN S5630GMRE-CGN 主板
- ASUS Dual GeForce RTX 3060 OC 12GB GPU
- 6 根 32GB Samsung 2666MHz DDR4 ECC DRAM
- 6 个 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS 持久内存模块
- Western Digital WD SN850X 2TB M.2 2280 NVMe SSD
- ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics PLATINUM 全模组电源
- Silverstone SST-GD08B (黑) Grandia Series HTPC 机箱
希望你喜欢这次盘点。这里还有很多细节没有包含在内,所以我很乐意在评论区回答关于配置、设定或任何组件选择背后的原因的问题。此外,如果有人探索过类似的非典型硬件/用于 LLM 推理的配置,我很乐意讨论!
相似文章
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。
@jun_song:正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s,并尽可能减少质量损失。
一位开发者正在优化 Kimi-K2.6 (1T) 模型,使其能在 128GB Mac 上高效运行,目标速度为 40 tok/s,同时尽可能降低质量损失。
@0xSero:本地部署(一)—— Apple Silicon Mac 拥有大内存池可跑大模型,但 token 生成速度会……
Apple Silicon Mac 提供大内存池运行大模型,但 token 生成较慢,最适合活跃参数量低的大型 MoE 模型。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。