@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的……
摘要
作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。
如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的。数据中心的效率将提升 100 倍。我们甚至可以在仅 32GB 显存的设备上本地运行像 Kimi 这样拥有 1 万亿参数的模型。我知道这目前基本不可能,但未来会怎样谁也说不准。让我做个梦吧。
相似文章
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
除了更快之外,MoE 模型的意义何在?
讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。
内存富裕/显卡贫瘠的人错了吗?
讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。
@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数,3.6B 活跃参数(MoE)。OpenAI,Apache 2.0。仅使用 1.8 GB 显存…
一个全新的开源 MoE 模型,gpt-oss-20b(总共 21B,活跃 3.6B),仅需 1.8GB 显存即可运行,并在代理编程任务上获得满分,性能优于其他本地模型(如 Gemma 和 Qwen)。
@analogalok:我的8GB显存游戏本肯定会恨我这么做,但我还是做了。跑了一个31B稠密模型(Gemma 4…
用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。