moe-inference

#moe-inference

Luce Spark：无需卸载开销，在16GB GPU上运行35B MoE模型

Reddit r/LocalLLaMA ↗ · 昨天

Luce Spark 是一款开源工具，通过智能地将热门专家缓存到 GPU 上，同时将其他专家保留在系统 RAM 中，从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存，保持高吞吐量，避免了常见的卸载速度断崖。

0 人收藏 0 人点赞

#moe-inference

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA ↗ · 2026-05-13

一位开发者展示了如何使用llama.cpp，通过MoE卸载和TurboQuant KV缓存量化技术，在老款GTX 1080（8GB显存）上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型，达到24+ tok/s的推理速度，并揭示了针对Gemma MTP投机解码的优化技巧。

0 人收藏 0 人点赞

moe-inference

Luce Spark：无需卸载开销，在16GB GPU上运行35B MoE模型

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

提交意见反馈