dense-models

#dense-models

将混合专家模型剪枝与蒸馏为稠密语言模型

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构，相比传统剪枝方法实现了更优的性能和效率。

0 人收藏 0 人点赞

#dense-models

Reddit r/LocalLLaMA ↗ · 2026-05-19

讨论混合专家（MoE）模型在速度之外相对于密集模型的优势，考虑内存限制和扩展限制。

0 人收藏 0 人点赞

#dense-models

Reddit r/LocalLLaMA ↗ · 2026-05-15

讨论了本地AI中密集模型与混合专家（MoE）模型之间的权衡，指出高内存用户除了Qwen 3.5 122B之外，MoE选择有限，并质疑大显存是否是唯一可行的路径。

0 人收藏 0 人点赞