48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA 工具

摘要

一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。

大家好,我一直在使用带tensor split的llama.cpp在RTX 4090 + RTX 3090配置上运行Qwen3.6 27B (Q8_0),想分享一下对我而言目前效果最好的设置。看看是否有人有更好的设置。 硬件: RTX 4090 (24GB) + RTX 3090 (24GB),总计48GB VRAM 操作系统: Arch Linux(使用核显显示) 设置: 量化:Q8_0 拆分模式:tensor GPU层数:-ngl 999 上下文:250k (-c 250000) 投机解码:--spec-type draft-mtp --spec-draft-n-max 4 并行请求:-np 3 统一KV缓存:-kvu 聊天模板:--chat-template-kwargs '{"preserve_thinking": true}' 标志:--no-mmap -fa on --jinja -fit off --no-op-offload 视觉:mmproj-F16 with --no-mmproj-offload 这使我在250k未量化上下文、视觉和MTP下获得了75-100 t/s的生成速度和1500 pp。
查看原文

相似文章