@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

X AI KOLs Timeline 2026/06/10 20:13 新闻

inference-optimization moe-model vram-efficiency local-inference qwen-35b-a3b luce-spark technique

摘要

一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU（如RTX 3090）上运行，通过学习哪些专家被频繁使用，并将其余专家从内存流式加载，实现约100 tok/s，且不受显存瓶颈限制。

那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 模型压缩到13.3GB，在3090 GPU上实测。这意味着之前根本无法加载的模型，现在可以运行了，速度约100 tok/s，接近所有专家都驻留在24GB显卡上的表现。巧妙之处在于，很多人对 MoE 的理解是错误的。它每 token 只激活约 3B 的 35B 参数，路由到 256 个专家中的大约 8 个，但你仍然需要占用全部显存来保留所有专家，以防下一个 token 用到。 luce spark 会学习你的流量实际命中了哪些专家，将这些热专家固定在显存中，而将剩余专家从内存流式加载，隐藏在矩阵乘法运算下，因此不会有速度断崖。只需一个标志，每次重启它就会自动调优变得更热。这类工作默默地让整个本地推理层级降低了一个显卡档次。别让它滑过去。

查看原文

查看缓存全文

缓存时间: 2026/06/11 17:43

使用16GB显卡的朋友，先别划走。@pupposandro 和 @davideciffa 成功将 Qwen 35B-A3B 模型压缩到13.3GB，并在3090 GPU上实测运行。

这意味着之前根本装不下的模型，现在不仅能装下，还能以约100 tok/s的速度运行，接近24GB显卡上所有专家驻留时的表现。

巧妙之处在于很多人都没搞懂MoE的关键：每次token只激活约30亿（35B中的3B）参数，从256个专家中路由到8个左右——但为了应对后续请求，你仍然需要把所有专家都留在显存里。

Luce Spark能学习你的流量实际命中了哪些专家，把热门专家固定在显存，其余专家则隐藏在矩阵乘法操作背后从RAM中流式加载，从而避免速度断崖。只需一个标志位，每次重启它都会自动调优，让热专家更“热”。

这类工作能让整个本地推理层级降低一张显卡。别让它从你眼前溜走。

@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

相似文章

Qwen 35B-A3B 在 12GB 显存下非常可用。

Luce Spark：无需卸载开销，在16GB GPU上运行35B MoE模型

@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快！Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

在搭载RTX 4060（8GB）的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果

提交意见反馈