48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA 2026/06/20 09:07 工具

llamacpp qwen model-inference multi-gpu vram-optimization speculative-decoding tensor-split

摘要

一位用户分享了在双GPU配置（RTX 4090 + RTX 3090）上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置，在250k上下文下实现了75-100 t/s和1500 pp。

大家好，我一直在使用带tensor split的llama.cpp在RTX 4090 + RTX 3090配置上运行Qwen3.6 27B (Q8_0)，想分享一下对我而言目前效果最好的设置。看看是否有人有更好的设置。硬件： RTX 4090 (24GB) + RTX 3090 (24GB)，总计48GB VRAM 操作系统： Arch Linux（使用核显显示）设置：量化：Q8_0 拆分模式：tensor GPU层数：-ngl 999 上下文：250k (-c 250000) 投机解码：--spec-type draft-mtp --spec-draft-n-max 4 并行请求：-np 3 统一KV缓存：-kvu 聊天模板：--chat-template-kwargs '{"preserve_thinking": true}' 标志：--no-mmap -fa on --jinja -fit off --no-op-offload 视觉：mmproj-F16 with --no-mmproj-offload 这使我在250k未量化上下文、视觉和MTP下获得了75-100 t/s的生成速度和1500 pp。

查看原文

48GB VRAM + Qwen 3.6 27B 的最佳设置

相似文章

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

Qwen3.6 27b / llama.cpp / opencode 最佳配置

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

在24GB显存环境中运行Qwen 3.6 27B的配置：后端对比、量化选择与设置（llama.cpp, ik_llama.cpp, BeeLlama, vllm）

7900XTX 24GB 显存，终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

提交意见反馈