moe-model

#moe-model

@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

X AI KOLs Timeline ↗ · 昨天缓存

一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU（如RTX 3090）上运行，通过学习哪些专家被频繁使用，并将其余专家从内存流式加载，实现约100 tok/s，且不受显存瓶颈限制。

0 人收藏 0 人点赞

#moe-model

Reddit r/LocalLLaMA ↗ · 2026-05-29

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型（例如 Qwen3.6-35B-A3B）时出现的崩溃问题 (GGML_ASSERT)。

0 人收藏 0 人点赞

#moe-model

Reddit r/LocalLLaMA ↗ · 2026-05-20

Cohere发布Command A+，其首个混合专家模型，采用Apache 2.0许可，具备高效量化，可在1-2块GPU上部署，优先考虑实用性和对开发者的开放访问。

0 人收藏 0 人点赞