@oscarmartin: The world of AI is local, I have no doubt about it anymore @_nasch_ getting 87 tok/s with Qwen3.6 27B on a consumer AMD…

X AI KOLs Following Tools

Summary

Una demostración de cómo usar el flag -ncmoe en llama.cpp aumenta significativamente la velocidad de inferencia de Qwen3.6 en GPUs de consumo, logrando 70 tok/s en una RTX 4070 12GB frente a los 21 tok/s de Ollama.

El mundo de la IA es local, ya no me cabe duda 💪 @_nasch_ sacando 87 tok/s con Qwen3.6 27B en una AMD de consumo. Yo en mi vídeo: 70 tok/s con Qwen3.6 35B en una 4070 12GB. Esto avanza muy rápido. Es emocionante. https://t.co/dPqGJ8AR3P
Original Article
View Cached Full Text

Cached at: 05/30/26, 08:09 AM

El mundo de la IA es local, ya no me cabe duda 💪

@nasch sacando 87 tok/s con Qwen3.6 27B en una AMD de consumo.

Yo en mi vídeo: 70 tok/s con Qwen3.6 35B en una 4070 12GB.

Esto avanza muy rápido. Es emocionante. https://t.co/dPqGJ8AR3P

OscarMartin (@oscarmartin): Ollama me daba 21 tok/s con Qwen3.6 35B (12 GB VRAM).

Mismo modelo, misma GPU → llama.cpp + -ncmoe 15 = 70 tok/s.

No es magia. Es un flag que Ollama no expone.

Comando exacto: llama-cli -m ~/models/Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -ncmoe 15 -p “Hola”

Demo real aquí 👇

Similar Articles

Running Qwen3.6 35b a3b on 8gb vram and 32gb ram ~190k context

Reddit r/LocalLLaMA

The author shares a high-performance local inference configuration for running Qwen3.6 35B A3B on limited hardware (8GB VRAM, 32GB RAM) using a modified llama.cpp with TurboQuant support, achieving ~37-51 tok/sec with ~190k context.