@oscarmartin: AI的世界是本地化的,我再也不怀疑了 @_nasch_ 在消费级AMD上让Qwen3.6 27B达到87 tok/s…

X AI KOLs Following 工具

摘要

演示了如何在llama.cpp中使用-ncmoe标志,显著提高了Qwen3.6在消费级GPU上的推理速度,在RTX 4070 12GB上达到70 tok/s,而Ollama仅为21 tok/s。

AI的世界是本地化的,我毫不怀疑 💪 @_nasch_ 在消费级AMD上让Qwen3.6 27B达到87 tok/s。 我的视频中:Qwen3.6 35B在4070 12GB上达到70 tok/s。 这进展太快了,令人兴奋。 https://t.co/dPqGJ8AR3P
查看原文
查看缓存全文

缓存时间: 2026/05/30 08:09

AI的世界是本地化的,我对此不再怀疑 💪

@nasch 在消费级AMD上用Qwen3.6 27B跑出了87 tok/s。

我在我的视频里:用Qwen3.6 35B在4070 12GB上跑出70 tok/s。

这进展太快了。令人激动。 https://t.co/dPqGJ8AR3P

OscarMartin (@oscarmartin): Ollama用Qwen3.6 35B(12 GB显存)只给我21 tok/s。

相同模型,相同GPU → llama.cpp + -ncmoe 15 = 70 tok/s。

这不是魔法。这是一个Ollama没有暴露的flag。

精确命令: llama-cli -m ~/models/Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -ncmoe 15 -p “Hola”

真实演示在这里 👇

相似文章