7900XTX 24GB 显存,终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B
摘要
在 AMD 7900XTX 上优化显存使用的指南,通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp,并使用 q5_0/q4_0 的 KVCache 量化,以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。
操作系统:CatchyOS 说明:直接将显示器连接到集成显卡,这样当你启动 Linux 时,你的独立显卡显存将 100% 空闲,因为默认情况下使用独立显卡会消耗约 700MB~1.2GB 的上下文空间,是的,你仍然可以正常使用此方法玩游戏。
将 KVCache 设置为 q5_0/q4_0(确保编译时使用 CUDA_ALL_QUANTS)。是的,Q5_0/Q4_0 比 Q8 精度低约 1.6%,但显存使用减少 12%,如下所示:(Qwen 在 KVCache 方面表现出色)。https://anbeeld.com/articles/kv-cache-quantization-benchmarks-for-long-context
现在我可以运行 Qwen 3.6 27B Unsloth Q6K 模型(约 22GB),在 131k 上下文下速度达到 55~60 tokens/秒
添加这些编译参数(我从这里得到的 BLAS 更改,有人说这有助于减少显存使用,嗯...) -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS -DGGML_CUDA_FA_ALL_QUANTS=true
然后只需传递 llama.cpp 参数:-ctk q5_0 -ctv q4_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --presence-penalty 0.0 --repeat-penalty 1.0 -c 131000 --jinja --mlock --parallel 1 --no-mmproj
相似文章
48GB VRAM + Qwen 3.6 27B 的最佳设置
一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
在24GB显存环境中运行Qwen 3.6 27B的配置:后端对比、量化选择与设置(llama.cpp, ik_llama.cpp, BeeLlama, vllm)
本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端,发现搭配IQ4_KS量化的ik_llama.cpp性能最佳(预填充1261 tok/s,解码72.9 tok/s)。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。