标签
一位用户分享其配置:使用两块改装版RTX 2080 Ti GPU(每块22GB显存)通过llama.cpp以38 token/s运行Qwen 3.6 27B,并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。
一位研究者希望找到更快、方差更低的基准测试,以便为 Qwen 3.6 35B A3B 调节 temperature、top_p、top_k 与 min_p,现有方案预估需数月的 3090 算力。