@sudoingX: 那些用16GB显卡的,别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB,在……上实测
摘要
一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU(如RTX 3090)上运行,通过学习哪些专家被频繁使用,并将其余专家从内存流式加载,实现约100 tok/s,且不受显存瓶颈限制。
查看缓存全文
缓存时间: 2026/06/11 17:43
使用16GB显卡的朋友,先别划走。@pupposandro 和 @davideciffa 成功将 Qwen 35B-A3B 模型压缩到13.3GB,并在3090 GPU上实测运行。
这意味着之前根本装不下的模型,现在不仅能装下,还能以约100 tok/s的速度运行,接近24GB显卡上所有专家驻留时的表现。
巧妙之处在于很多人都没搞懂MoE的关键:每次token只激活约30亿(35B中的3B)参数,从256个专家中路由到8个左右——但为了应对后续请求,你仍然需要把所有专家都留在显存里。
Luce Spark能学习你的流量实际命中了哪些专家,把热门专家固定在显存,其余专家则隐藏在矩阵乘法操作背后从RAM中流式加载,从而避免速度断崖。只需一个标志位,每次重启它都会自动调优,让热专家更“热”。
这类工作能让整个本地推理层级降低一张显卡。别让它从你眼前溜走。
相似文章
Qwen 35B-A3B 在 12GB 显存下非常可用。
一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。
Luce Spark:无需卸载开销,在16GB GPU上运行35B MoE模型
Luce Spark 是一款开源工具,通过智能地将热门专家缓存到 GPU 上,同时将其他专家保留在系统 RAM 中,从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存,保持高吞吐量,避免了常见的卸载速度断崖。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。
两块旧款RTX 2080 Ti,每块22GB显存,运行Qwen3.6 27B,使用f16 KV缓存达到38 token/s
一位用户分享其配置:使用两块改装版RTX 2080 Ti GPU(每块22GB显存)通过llama.cpp以38 token/s运行Qwen 3.6 27B,并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。
在搭载RTX 4060(8GB)的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果
详细记录了在8GB笔记本GPU上运行Qwen3.6-35B-A3B MoE模型的经历,涵盖有效优化(如--no-mmap和VRAM余量)、意料之外的发现(推测解码相比基准测试提升26%的速度)以及Windows和CPU瓶颈的陷阱。