标签
英特尔已停产的 Optane 持久内存技术在 AI 工作负载中找到了第二春,用户可以利用廉价的二手 Optane 模块,在本地以大约每秒 4 个 token 的速度运行一个 1 万亿参数的模型。文章强调了 Optane 相比 SSD 具有更低的延迟,使其尽管比 DRAM 慢,但依然适用于大型模型推理。
一位社区成员详细介绍了这款定制 PC 组装方案,利用已停产的 Intel Optane Persistent Memory,成功通过 llama.cpp 在本地以约 4 tokens/秒的速度运行了 1 万亿参数的 Kimi K2.5 模型。