在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Reddit r/LocalLLaMA 2026/05/10 18:24 工具

llama-cpp local-llm qwen optimization turboquant hardware-config

摘要

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

如果有人在寻找 ~190k 上下文的优质高速配置，这个配置对我来说效果极佳。我通过 Tailscale 将笔记本电脑作为服务器使用。安装了 Linux 系统并运行： - Qwen3.6 35B A3B - RTX 4060 8GB 显存 - 32GB DDR5 5600MHz 内存 - Q5 量化模型目前测试过的模型： - `mudler/Qwen3.6-35B-A3B-APEX-GGUF` - ~40 tok/sec → 37 tok/sec - `hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF` - ~43 tok/sec → 37 tok/sec 通过调整以下参数，我可以将速度提升至 ~51 tok/sec： - `--ctx-size 192640` - `--n-gpu-layers 430` - `--n-cpu-moe 35` 并根据稳定性和内存使用情况略微调整这些值。这是我当前的配置： \#!/bin/bash \# --- LLAMA SERVER LAUNCHER SCRIPT --- \#SELECTED_MODEL="/home/atulloq/.lmstudio/models/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled.Q5_K_M.gguf" SELECTED_MODEL="/home/atulloq/.lmstudio/models/mudler/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Balanced.gguf" echo "Starting Llama Server..." echo "Model: $SELECTED_MODEL" /home/atulloq/llama-cpp-turboquant/build/bin/llama-server \\ --model "$SELECTED_MODEL" \\ --host [0.0.0.0](http://0.0.0.0) \\ --port 8085 \\ --ctx-size 192640 \\ --n-gpu-layers 430 \\ --n-cpu-moe 35 \\ --cache-type-k "turbo4" \\ --cache-type-v "turbo4" \\ --flash-attn on \\ --batch-size 2048 \\ --parallel 1 \\ --no-mmap \\ --mlock \\ --ubatch-size 512 \\ --threads 6 \\ --cont-batching \\ --timeout 300 \\ --temp 0.2 \\ --top-p 0.95 \\ --min-p 0.05 \\ --top-k 20 \\ --metrics \\ --chat-template-kwargs '{"preserve_thinking": true}' 我使用的是支持 TurboQuant 的 llama.cpp 分支：[https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant](https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant) 几点真实的体验说明： - 对于这些模型，与 Q5 相比，Q4 在长上下文推理方面明显表现较差。 - `--no-mmap` + `--mlock` 帮助我减少了奇怪的卡顿现象。 - TurboQuant KV 缓存在大上下文长度时效果显著。 - 在此配置下，Linux 的性能远超 Windows。 - 如果你的内存带宽较差，不要期望达到这样的速度。这里 DDR5 很重要。如果有人对以下方面有优化建议： - 更好的长上下文稳定性， - 更高的 Token 吞吐量， - 或更智能的 `n-cpu-moe` 调优，我非常乐意进行测试。

查看原文

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

相似文章

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

QWEN3.6 + ik_llama 快得离谱

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

BeeLlama.cpp：支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5，速度比基线快 2-3 倍（峰值 135 tps！）

Qwen3.6 27b / llama.cpp / opencode 最佳配置

提交意见反馈