@sudoingX: 那些用16GB显卡的,别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB,在……上实测

X AI KOLs Timeline 新闻

摘要

一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU(如RTX 3090)上运行,通过学习哪些专家被频繁使用,并将其余专家从内存流式加载,实现约100 tok/s,且不受显存瓶颈限制。

那些用16GB显卡的,别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 模型压缩到13.3GB,在3090 GPU上实测。这意味着之前根本无法加载的模型,现在可以运行了,速度约100 tok/s,接近所有专家都驻留在24GB显卡上的表现。 巧妙之处在于,很多人对 MoE 的理解是错误的。它每 token 只激活约 3B 的 35B 参数,路由到 256 个专家中的大约 8 个,但你仍然需要占用全部显存来保留所有专家,以防下一个 token 用到。 luce spark 会学习你的流量实际命中了哪些专家,将这些热专家固定在显存中,而将剩余专家从内存流式加载,隐藏在矩阵乘法运算下,因此不会有速度断崖。只需一个标志,每次重启它就会自动调优变得更热。 这类工作默默地让整个本地推理层级降低了一个显卡档次。别让它滑过去。
查看原文
查看缓存全文

缓存时间: 2026/06/11 17:43

使用16GB显卡的朋友,先别划走。@pupposandro 和 @davideciffa 成功将 Qwen 35B-A3B 模型压缩到13.3GB,并在3090 GPU上实测运行。

这意味着之前根本装不下的模型,现在不仅能装下,还能以约100 tok/s的速度运行,接近24GB显卡上所有专家驻留时的表现。

巧妙之处在于很多人都没搞懂MoE的关键:每次token只激活约30亿(35B中的3B)参数,从256个专家中路由到8个左右——但为了应对后续请求,你仍然需要把所有专家都留在显存里。

Luce Spark能学习你的流量实际命中了哪些专家,把热门专家固定在显存,其余专家则隐藏在矩阵乘法操作背后从RAM中流式加载,从而避免速度断崖。只需一个标志位,每次重启它都会自动调优,让热专家更“热”。

这类工作能让整个本地推理层级降低一张显卡。别让它从你眼前溜走。

相似文章

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA

一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。

Luce Spark:无需卸载开销,在16GB GPU上运行35B MoE模型

Reddit r/LocalLLaMA

Luce Spark 是一款开源工具,通过智能地将热门专家缓存到 GPU 上,同时将其他专家保留在系统 RAM 中,从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存,保持高吞吐量,避免了常见的卸载速度断崖。