48GB VRAM + Qwen 3.6 27B 的最佳设置
摘要
一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。
大家好,我一直在使用带tensor split的llama.cpp在RTX 4090 + RTX 3090配置上运行Qwen3.6 27B (Q8_0),想分享一下对我而言目前效果最好的设置。看看是否有人有更好的设置。
硬件:
RTX 4090 (24GB) + RTX 3090 (24GB),总计48GB VRAM
操作系统:
Arch Linux(使用核显显示)
设置:
量化:Q8_0
拆分模式:tensor
GPU层数:-ngl 999
上下文:250k (-c 250000)
投机解码:--spec-type draft-mtp --spec-draft-n-max 4
并行请求:-np 3
统一KV缓存:-kvu
聊天模板:--chat-template-kwargs '{"preserve_thinking": true}'
标志:--no-mmap -fa on --jinja -fit off --no-op-offload
视觉:mmproj-F16 with --no-mmproj-offload
这使我在250k未量化上下文、视觉和MTP下获得了75-100 t/s的生成速度和1500 pp。
相似文章
两块旧款RTX 2080 Ti,每块22GB显存,运行Qwen3.6 27B,使用f16 KV缓存达到38 token/s
一位用户分享其配置:使用两块改装版RTX 2080 Ti GPU(每块22GB显存)通过llama.cpp以38 token/s运行Qwen 3.6 27B,并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
在24GB显存环境中运行Qwen 3.6 27B的配置:后端对比、量化选择与设置(llama.cpp, ik_llama.cpp, BeeLlama, vllm)
本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端,发现搭配IQ4_KS量化的ik_llama.cpp性能最佳(预填充1261 tok/s,解码72.9 tok/s)。
7900XTX 24GB 显存,终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B
在 AMD 7900XTX 上优化显存使用的指南,通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp,并使用 q5_0/q4_0 的 KVCache 量化,以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。