7900XTX 24GB 显存,终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

Reddit r/LocalLLaMA 工具

摘要

在 AMD 7900XTX 上优化显存使用的指南,通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp,并使用 q5_0/q4_0 的 KVCache 量化,以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。

操作系统:CatchyOS 说明:直接将显示器连接到集成显卡,这样当你启动 Linux 时,你的独立显卡显存将 100% 空闲,因为默认情况下使用独立显卡会消耗约 700MB~1.2GB 的上下文空间,是的,你仍然可以正常使用此方法玩游戏。 将 KVCache 设置为 q5_0/q4_0(确保编译时使用 CUDA_ALL_QUANTS)。是的,Q5_0/Q4_0 比 Q8 精度低约 1.6%,但显存使用减少 12%,如下所示:(Qwen 在 KVCache 方面表现出色)。https://anbeeld.com/articles/kv-cache-quantization-benchmarks-for-long-context 现在我可以运行 Qwen 3.6 27B Unsloth Q6K 模型(约 22GB),在 131k 上下文下速度达到 55~60 tokens/秒 添加这些编译参数(我从这里得到的 BLAS 更改,有人说这有助于减少显存使用,嗯...) -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS -DGGML_CUDA_FA_ALL_QUANTS=true 然后只需传递 llama.cpp 参数:-ctk q5_0 -ctv q4_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --presence-penalty 0.0 --repeat-penalty 1.0 -c 131000 --jinja --mlock --parallel 1 --no-mmproj
查看原文

相似文章

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA

一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。