dense-models

标签

Cards List
#dense-models

将混合专家模型剪枝与蒸馏为稠密语言模型

Hugging Face Daily Papers · 2026-05-27 缓存

一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构,相比传统剪枝方法实现了更优的性能和效率。

0 人收藏 0 人点赞
#dense-models

除了更快之外,MoE 模型的意义何在?

Reddit r/LocalLLaMA · 2026-05-19

讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。

0 人收藏 0 人点赞
#dense-models

内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA · 2026-05-15

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈