7900XTX 24GB 显存，终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

Reddit r/LocalLLaMA 2026/06/20 08:23 工具

vram-optimization amd-gpu qwen-model llama-cpp context-length quantization ai-inference

摘要

在 AMD 7900XTX 上优化显存使用的指南，通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp，并使用 q5_0/q4_0 的 KVCache 量化，以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。

操作系统：CatchyOS 说明：直接将显示器连接到集成显卡，这样当你启动 Linux 时，你的独立显卡显存将 100% 空闲，因为默认情况下使用独立显卡会消耗约 700MB~1.2GB 的上下文空间，是的，你仍然可以正常使用此方法玩游戏。将 KVCache 设置为 q5_0/q4_0（确保编译时使用 CUDA_ALL_QUANTS）。是的，Q5_0/Q4_0 比 Q8 精度低约 1.6%，但显存使用减少 12%，如下所示：（Qwen 在 KVCache 方面表现出色）。https://anbeeld.com/articles/kv-cache-quantization-benchmarks-for-long-context 现在我可以运行 Qwen 3.6 27B Unsloth Q6K 模型（约 22GB），在 131k 上下文下速度达到 55~60 tokens/秒添加这些编译参数（我从这里得到的 BLAS 更改，有人说这有助于减少显存使用，嗯...） -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS -DGGML_CUDA_FA_ALL_QUANTS=true 然后只需传递 llama.cpp 参数：-ctk q5_0 -ctv q4_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --presence-penalty 0.0 --repeat-penalty 1.0 -c 131000 --jinja --mlock --parallel 1 --no-mmproj

查看原文

7900XTX 24GB 显存，终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

相似文章

48GB VRAM + Qwen 3.6 27B 的最佳设置

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

在24GB显存环境中运行Qwen 3.6 27B的配置：后端对比、量化选择与设置（llama.cpp, ik_llama.cpp, BeeLlama, vllm）

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

提交意见反馈