local-llm-inference

标签

Cards List
#local-llm-inference

使用 Intel Optane Persistent Memory 组装的电脑 – 能以超过 4 tokens/秒的速度运行 1 万亿参数模型

Reddit r/LocalLLaMA · 2026-05-11

一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈