@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中，而不是加载全部权重，那将是颠覆性的……

X AI KOLs Following 2026/05/10 08:07 新闻

摘要

作者推测，如果仅将 MoE 模型的激活参数加载到 GPU 上，将能极大提高运行效率，并允许在本地运行 Kimi 这样的大型模型，尽管作者承认目前这尚不切实际。

如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中，而不是加载全部权重，那将是颠覆性的。数据中心的效率将提升 100 倍。我们甚至可以在仅 32GB 显存的设备上本地运行像 Kimi 这样拥有 1 万亿参数的模型。我知道这目前基本不可能，但未来会怎样谁也说不准。让我做个梦吧。

查看原文

相似文章

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA

一位开发者展示了如何使用llama.cpp，通过MoE卸载和TurboQuant KV缓存量化技术，在老款GTX 1080（8GB显存）上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型，达到24+ tok/s的推理速度，并揭示了针对Gemma MTP投机解码的优化技巧。

除了更快之外，MoE 模型的意义何在？

Reddit r/LocalLLaMA

讨论混合专家（MoE）模型在速度之外相对于密集模型的优势，考虑内存限制和扩展限制。

内存富裕/显卡贫瘠的人错了吗？

Reddit r/LocalLLaMA

讨论了本地AI中密集模型与混合专家（MoE）模型之间的权衡，指出高内存用户除了Qwen 3.5 122B之外，MoE选择有限，并质疑大显存是否是唯一可行的路径。

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

X AI KOLs Timeline

一个全新的开源 MoE 模型，gpt-oss-20b（总共 21B，活跃 3.6B），仅需 1.8GB 显存即可运行，并在代理编程任务上获得满分，性能优于其他本地模型（如 Gemma 和 Qwen）。

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

X AI KOLs Timeline

用户在8GB显存的游戏本上，使用llama.cpp配合MTP推测解码，以约3 tokens/s的速度运行了Gemma 4 31B稠密模型，展示了在消费级硬件上运行31B稠密模型的可行性，并提出了智能体工作流程：快速MoE模型将困难任务路由给这个较慢的稠密模型。

相似文章

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

除了更快之外，MoE 模型的意义何在？

内存富裕/显卡贫瘠的人错了吗？

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

提交意见反馈