qwen3.6-35b-a3b-mtp 在 GTX 1060 6GB 上运行
摘要
一位用户成功在一台使用十年的旧工作站上(配备 GTX 1060 6GB),在 Windows 上使用 LMStudio 运行了 Qwen3.6-35B-a3b-MTP 模型,实现了可接受的聊天速度。
我有一台使用了十年的旧 Dell T5810 工作站,配备 32GB ddr3(?) 内存和一颗 E5-2698v3(16核32线程),一块 GTX 1060 6GB,早年用来挖矿(早已回本多次)。我成功让模型在 Windows 上通过 LMStudio 运行起来了(!)。我的设置如下:模型:unsloth qwen3.6-35B-a3b-MTP-GGUF UD Q4_K_XL,上下文长度:131072,GPU 卸载层数:41,CPU 线程池大小:16,最大并发数:4,专家数量:8,卸载到 CPU 的 MoE 层数:41,MTP 最大草稿数:3,KV 量化:两者均为 Q4_0,预填充 16k 约 130-150 tps,解码 4k 约 16 tps。用于聊天非常可用。
相似文章
@Snixtp: https://x.com/Snixtp/status/2055734339346768225
某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。
Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。
在搭载RTX 4060(8GB)的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果
详细记录了在8GB笔记本GPU上运行Qwen3.6-35B-A3B MoE模型的经历,涵盖有效优化(如--no-mmap和VRAM余量)、意料之外的发现(推测解码相比基准测试提升26%的速度)以及Windows和CPU瓶颈的陷阱。
@tunguz: 看到这些推文后,我决定在我那台装有 RTX 1070 GPU 的老旧 Ubuntu 电脑上试试(就是那台我刚刚……
一位用户报告成功在较老的 RTX 1070 GPU 上本地运行 Qwen3 8B,展示了现代大语言模型在十年前的硬件上也能表现出不错的性能。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。