qwen3.6-35b-a3b-mtp 在 GTX 1060 6GB 上运行

Reddit r/LocalLLaMA 2026/05/24 19:10 新闻

model-inference gguf lm-studio qwen hardware low-spec deployment

摘要

一位用户成功在一台使用十年的旧工作站上（配备 GTX 1060 6GB），在 Windows 上使用 LMStudio 运行了 Qwen3.6-35B-a3b-MTP 模型，实现了可接受的聊天速度。

我有一台使用了十年的旧 Dell T5810 工作站，配备 32GB ddr3(?) 内存和一颗 E5-2698v3（16核32线程），一块 GTX 1060 6GB，早年用来挖矿（早已回本多次）。我成功让模型在 Windows 上通过 LMStudio 运行起来了（！）。我的设置如下：模型：unsloth qwen3.6-35B-a3b-MTP-GGUF UD Q4_K_XL，上下文长度：131072，GPU 卸载层数：41，CPU 线程池大小：16，最大并发数：4，专家数量：8，卸载到 CPU 的 MoE 层数：41，MTP 最大草稿数：3，KV 量化：两者均为 Q4_0，预填充 16k 约 130-150 tps，解码 4k 约 16 tps。用于聊天非常可用。

查看原文

qwen3.6-35b-a3b-mtp 在 GTX 1060 6GB 上运行

相似文章

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

Qwen3.6-35B-A3B Q4 262k上下文，8GB 3070 Ti上可达+30tps

在搭载RTX 4060（8GB）的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果

@tunguz: 看到这些推文后，我决定在我那台装有 RTX 1070 GPU 的老旧 Ubuntu 电脑上试试（就是那台我刚刚……

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

提交意见反馈