@oscarmartin: AI的世界是本地化的，我再也不怀疑了 @_nasch_ 在消费级AMD上让Qwen3.6 27B达到87 tok/s…

X AI KOLs Following 2026/05/29 07:21 工具

local-ai inference llama-cpp qwen performance gpu ollama

摘要

演示了如何在llama.cpp中使用-ncmoe标志，显著提高了Qwen3.6在消费级GPU上的推理速度，在RTX 4070 12GB上达到70 tok/s，而Ollama仅为21 tok/s。

AI的世界是本地化的，我毫不怀疑 💪 @_nasch_ 在消费级AMD上让Qwen3.6 27B达到87 tok/s。我的视频中：Qwen3.6 35B在4070 12GB上达到70 tok/s。这进展太快了，令人兴奋。 https://t.co/dPqGJ8AR3P

查看原文

查看缓存全文

缓存时间: 2026/05/30 08:09

AI的世界是本地化的，我对此不再怀疑 💪

@nasch 在消费级AMD上用Qwen3.6 27B跑出了87 tok/s。

我在我的视频里：用Qwen3.6 35B在4070 12GB上跑出70 tok/s。

这进展太快了。令人激动。 https://t.co/dPqGJ8AR3P

OscarMartin (@oscarmartin)： Ollama用Qwen3.6 35B（12 GB显存）只给我21 tok/s。

相同模型，相同GPU → llama.cpp + -ncmoe 15 = 70 tok/s。

这不是魔法。这是一个Ollama没有暴露的flag。

精确命令： llama-cli -m ~/models/Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -ncmoe 15 -p “Hola”

真实演示在这里 👇

相似文章

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

X AI KOLs Following

演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上，使用 Hugging Face Inference 运行自定义 Qwen 模型（Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF），达到每秒约 195 个 token 的处理速度。

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

X AI KOLs Timeline

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型，实现了超过 90 tokens/s 的推理速度，预填充速度超过 1000 t/s，表明在消费级硬件上本地部署大型语言模型是可行的。

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Reddit r/LocalLLaMA

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……