moe-model

标签

Cards List
#moe-model

@sudoingX: 那些用16GB显卡的,别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB,在……上实测

X AI KOLs Timeline · 昨天 缓存

一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU(如RTX 3090)上运行,通过学习哪些专家被频繁使用,并将其余专家从内存流式加载,实现约100 tok/s,且不受显存瓶颈限制。

0 人收藏 0 人点赞
#moe-model

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA · 2026-05-29

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。

0 人收藏 0 人点赞
#moe-model

回复:Cohere的Command-A系列模型后来怎么样了?

Reddit r/LocalLLaMA · 2026-05-20

Cohere发布Command A+,其首个混合专家模型,采用Apache 2.0许可,具备高效量化,可在1-2块GPU上部署,优先考虑实用性和对开发者的开放访问。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈