moe-inference

标签

Cards List
#moe-inference

Luce Spark:无需卸载开销,在16GB GPU上运行35B MoE模型

Reddit r/LocalLLaMA · 昨天

Luce Spark 是一款开源工具,通过智能地将热门专家缓存到 GPU 上,同时将其他专家保留在系统 RAM 中,从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存,保持高吞吐量,避免了常见的卸载速度断崖。

0 人收藏 0 人点赞
#moe-inference

在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA · 2026-05-13

一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈