luce-spark

#luce-spark

@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

X AI KOLs Timeline ↗ · 昨天缓存

一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU（如RTX 3090）上运行，通过学习哪些专家被频繁使用，并将其余专家从内存流式加载，实现约100 tok/s，且不受显存瓶颈限制。

0 人收藏 0 人点赞