在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
摘要
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
如果有人在寻找 ~190k 上下文的优质高速配置,这个配置对我来说效果极佳。我通过 Tailscale 将笔记本电脑作为服务器使用。安装了 Linux 系统并运行:
- Qwen3.6 35B A3B
- RTX 4060 8GB 显存
- 32GB DDR5 5600MHz 内存
- Q5 量化模型
目前测试过的模型:
- `mudler/Qwen3.6-35B-A3B-APEX-GGUF`
- ~40 tok/sec → 37 tok/sec
- `hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF`
- ~43 tok/sec → 37 tok/sec
通过调整以下参数,我可以将速度提升至 ~51 tok/sec:
- `--ctx-size 192640`
- `--n-gpu-layers 430`
- `--n-cpu-moe 35`
并根据稳定性和内存使用情况略微调整这些值。
这是我当前的配置:
\#!/bin/bash
\# --- LLAMA SERVER LAUNCHER SCRIPT ---
\#SELECTED_MODEL="/home/atulloq/.lmstudio/models/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled.Q5_K_M.gguf"
SELECTED_MODEL="/home/atulloq/.lmstudio/models/mudler/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Balanced.gguf"
echo "Starting Llama Server..."
echo "Model: $SELECTED_MODEL"
/home/atulloq/llama-cpp-turboquant/build/bin/llama-server \\
--model "$SELECTED_MODEL" \\
--host [0.0.0.0](http://0.0.0.0) \\
--port 8085 \\
--ctx-size 192640 \\
--n-gpu-layers 430 \\
--n-cpu-moe 35 \\
--cache-type-k "turbo4" \\
--cache-type-v "turbo4" \\
--flash-attn on \\
--batch-size 2048 \\
--parallel 1 \\
--no-mmap \\
--mlock \\
--ubatch-size 512 \\
--threads 6 \\
--cont-batching \\
--timeout 300 \\
--temp 0.2 \\
--top-p 0.95 \\
--min-p 0.05 \\
--top-k 20 \\
--metrics \\
--chat-template-kwargs '{"preserve_thinking": true}'
我使用的是支持 TurboQuant 的 llama.cpp 分支:[https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant](https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant)
几点真实的体验说明:
- 对于这些模型,与 Q5 相比,Q4 在长上下文推理方面明显表现较差。
- `--no-mmap` + `--mlock` 帮助我减少了奇怪的卡顿现象。
- TurboQuant KV 缓存在大上下文长度时效果显著。
- 在此配置下,Linux 的性能远超 Windows。
- 如果你的内存带宽较差,不要期望达到这样的速度。这里 DDR5 很重要。
如果有人对以下方面有优化建议:
- 更好的长上下文稳定性,
- 更高的 Token 吞吐量,
- 或更智能的 `n-cpu-moe` 调优,
我非常乐意进行测试。
相似文章
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
QWEN3.6 + ik_llama 快得离谱
用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。
成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
BeeLlama.cpp:支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5,速度比基线快 2-3 倍(峰值 135 tps!)
BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支,引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术,使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。