在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文

Reddit r/LocalLLaMA 工具

摘要

作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。

如果有人在寻找 ~190k 上下文的优质高速配置,这个配置对我来说效果极佳。我通过 Tailscale 将笔记本电脑作为服务器使用。安装了 Linux 系统并运行: - Qwen3.6 35B A3B - RTX 4060 8GB 显存 - 32GB DDR5 5600MHz 内存 - Q5 量化模型 目前测试过的模型: - `mudler/Qwen3.6-35B-A3B-APEX-GGUF` - ~40 tok/sec → 37 tok/sec - `hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF` - ~43 tok/sec → 37 tok/sec 通过调整以下参数,我可以将速度提升至 ~51 tok/sec: - `--ctx-size 192640` - `--n-gpu-layers 430` - `--n-cpu-moe 35` 并根据稳定性和内存使用情况略微调整这些值。 这是我当前的配置: \#!/bin/bash \# --- LLAMA SERVER LAUNCHER SCRIPT --- \#SELECTED_MODEL="/home/atulloq/.lmstudio/models/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled.Q5_K_M.gguf" SELECTED_MODEL="/home/atulloq/.lmstudio/models/mudler/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Balanced.gguf" echo "Starting Llama Server..." echo "Model: $SELECTED_MODEL" /home/atulloq/llama-cpp-turboquant/build/bin/llama-server \\ --model "$SELECTED_MODEL" \\ --host [0.0.0.0](http://0.0.0.0) \\ --port 8085 \\ --ctx-size 192640 \\ --n-gpu-layers 430 \\ --n-cpu-moe 35 \\ --cache-type-k "turbo4" \\ --cache-type-v "turbo4" \\ --flash-attn on \\ --batch-size 2048 \\ --parallel 1 \\ --no-mmap \\ --mlock \\ --ubatch-size 512 \\ --threads 6 \\ --cont-batching \\ --timeout 300 \\ --temp 0.2 \\ --top-p 0.95 \\ --min-p 0.05 \\ --top-k 20 \\ --metrics \\ --chat-template-kwargs '{"preserve_thinking": true}' 我使用的是支持 TurboQuant 的 llama.cpp 分支:[https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant](https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant) 几点真实的体验说明: - 对于这些模型,与 Q5 相比,Q4 在长上下文推理方面明显表现较差。 - `--no-mmap` + `--mlock` 帮助我减少了奇怪的卡顿现象。 - TurboQuant KV 缓存在大上下文长度时效果显著。 - 在此配置下,Linux 的性能远超 Windows。 - 如果你的内存带宽较差,不要期望达到这样的速度。这里 DDR5 很重要。 如果有人对以下方面有优化建议: - 更好的长上下文稳定性, - 更高的 Token 吞吐量, - 或更智能的 `n-cpu-moe` 调优, 我非常乐意进行测试。
查看原文

相似文章

QWEN3.6 + ik_llama 快得离谱

Reddit r/LocalLLaMA

用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。