expert-offloading

标签

Cards List
#expert-offloading

Luce Spark:无需卸载开销,在16GB GPU上运行35B MoE模型

Reddit r/LocalLLaMA · 3天前

Luce Spark 是一款开源工具,通过智能地将热门专家缓存到 GPU 上,同时将其他专家保留在系统 RAM 中,从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存,保持高吞吐量,避免了常见的卸载速度断崖。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈