qwen3.6-35b-a3b-mtp 在 GTX 1060 6GB 上运行

Reddit r/LocalLLaMA 新闻

摘要

一位用户成功在一台使用十年的旧工作站上(配备 GTX 1060 6GB),在 Windows 上使用 LMStudio 运行了 Qwen3.6-35B-a3b-MTP 模型,实现了可接受的聊天速度。

我有一台使用了十年的旧 Dell T5810 工作站,配备 32GB ddr3(?) 内存和一颗 E5-2698v3(16核32线程),一块 GTX 1060 6GB,早年用来挖矿(早已回本多次)。我成功让模型在 Windows 上通过 LMStudio 运行起来了(!)。我的设置如下:模型:unsloth qwen3.6-35B-a3b-MTP-GGUF UD Q4_K_XL,上下文长度:131072,GPU 卸载层数:41,CPU 线程池大小:16,最大并发数:4,专家数量:8,卸载到 CPU 的 MoE 层数:41,MTP 最大草稿数:3,KV 量化:两者均为 Q4_0,预填充 16k 约 130-150 tps,解码 4k 约 16 tps。用于聊天非常可用。
查看原文

相似文章

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。