@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的……

X AI KOLs Following 新闻

摘要

作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。

如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的。数据中心的效率将提升 100 倍。我们甚至可以在仅 32GB 显存的设备上本地运行像 Kimi 这样拥有 1 万亿参数的模型。我知道这目前基本不可能,但未来会怎样谁也说不准。让我做个梦吧。
查看原文

相似文章

内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。