在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
摘要
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
如果有人在寻找 ~190k 上下文的优质高速配置,这个配置对我来说效果极佳。我通过 Tailscale 将笔记本电脑作为服务器使用。安装了 Linux 系统并运行:
- Qwen3.6 35B A3B
- RTX 4060 8GB 显存
- 32GB DDR5 5600MHz 内存
- Q5 量化模型
目前测试过的模型:
- `mudler/Qwen3.6-35B-A3B-APEX-GGUF`
- ~40 tok/sec → 37 tok/sec
- `hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF`
- ~43 tok/sec → 37 tok/sec
通过调整以下参数,我可以将速度提升至 ~51 tok/sec:
- `--ctx-size 192640`
- `--n-gpu-layers 430`
- `--n-cpu-moe 35`
并根据稳定性和内存使用情况略微调整这些值。
这是我当前的配置:
\#!/bin/bash
\# --- LLAMA SERVER LAUNCHER SCRIPT ---
\#SELECTED_MODEL="/home/atulloq/.lmstudio/models/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled.Q5_K_M.gguf"
SELECTED_MODEL="/home/atulloq/.lmstudio/models/mudler/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Balanced.gguf"
echo "Starting Llama Server..."
echo "Model: $SELECTED_MODEL"
/home/atulloq/llama-cpp-turboquant/build/bin/llama-server \\
--model "$SELECTED_MODEL" \\
--host [0.0.0.0](http://0.0.0.0) \\
--port 8085 \\
--ctx-size 192640 \\
--n-gpu-layers 430 \\
--n-cpu-moe 35 \\
--cache-type-k "turbo4" \\
--cache-type-v "turbo4" \\
--flash-attn on \\
--batch-size 2048 \\
--parallel 1 \\
--no-mmap \\
--mlock \\
--ubatch-size 512 \\
--threads 6 \\
--cont-batching \\
--timeout 300 \\
--temp 0.2 \\
--top-p 0.95 \\
--min-p 0.05 \\
--top-k 20 \\
--metrics \\
--chat-template-kwargs '{"preserve_thinking": true}'
我使用的是支持 TurboQuant 的 llama.cpp 分支:[https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant](https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant)
几点真实的体验说明:
- 对于这些模型,与 Q5 相比,Q4 在长上下文推理方面明显表现较差。
- `--no-mmap` + `--mlock` 帮助我减少了奇怪的卡顿现象。
- TurboQuant KV 缓存在大上下文长度时效果显著。
- 在此配置下,Linux 的性能远超 Windows。
- 如果你的内存带宽较差,不要期望达到这样的速度。这里 DDR5 很重要。
如果有人对以下方面有优化建议:
- 更好的长上下文稳定性,
- 更高的 Token 吞吐量,
- 或更智能的 `n-cpu-moe` 调优,
我非常乐意进行测试。
相似文章
Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。
Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。
在24GB显存环境中运行Qwen 3.6 27B的配置:后端对比、量化选择与设置(llama.cpp, ik_llama.cpp, BeeLlama, vllm)
本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端,发现搭配IQ4_KS量化的ik_llama.cpp性能最佳(预填充1261 tok/s,解码72.9 tok/s)。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
QWEN3.6 + ik_llama 快得离谱
用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。