expert-offloading

#expert-offloading

Luce Spark：无需卸载开销，在16GB GPU上运行35B MoE模型

Reddit r/LocalLLaMA ↗ · 3天前

Luce Spark 是一款开源工具，通过智能地将热门专家缓存到 GPU 上，同时将其他专家保留在系统 RAM 中，从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存，保持高吞吐量，避免了常见的卸载速度断崖。

0 人收藏 0 人点赞