@oscarmartin: AI的世界是本地化的,我再也不怀疑了 @_nasch_ 在消费级AMD上让Qwen3.6 27B达到87 tok/s…
摘要
演示了如何在llama.cpp中使用-ncmoe标志,显著提高了Qwen3.6在消费级GPU上的推理速度,在RTX 4070 12GB上达到70 tok/s,而Ollama仅为21 tok/s。
查看缓存全文
缓存时间: 2026/05/30 08:09
AI的世界是本地化的,我对此不再怀疑 💪
@nasch 在消费级AMD上用Qwen3.6 27B跑出了87 tok/s。
我在我的视频里:用Qwen3.6 35B在4070 12GB上跑出70 tok/s。
这进展太快了。令人激动。 https://t.co/dPqGJ8AR3P
OscarMartin (@oscarmartin): Ollama用Qwen3.6 35B(12 GB显存)只给我21 tok/s。
相同模型,相同GPU → llama.cpp + -ncmoe 15 = 70 tok/s。
这不是魔法。这是一个Ollama没有暴露的flag。
精确命令: llama-cli -m ~/models/Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -ncmoe 15 -p “Hola”
真实演示在这里 👇
相似文章
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
@ItsmeAjayKV: 3090 更新:现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s,尚未启用 MTP,预填充速度…
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。