qwen-3.6

#qwen-3.6

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

Reddit r/LocalLLaMA ↗ · 12小时前

一位用户分享其配置：使用两块改装版RTX 2080 Ti GPU（每块22GB显存）通过llama.cpp以38 token/s运行Qwen 3.6 27B，并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。

0 人收藏 0 人点赞

#qwen-3.6

Reddit r/LocalLLaMA ↗ · 2026-04-21

一位研究者希望找到更快、方差更低的基准测试，以便为 Qwen 3.6 35B A3B 调节 temperature、top_p、top_k 与 min_p，现有方案预估需数月的 3090 算力。

0 人收藏 0 人点赞