有人在32GB Mac上使用opencode、claude code或类似工具,通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗?
摘要
我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃,我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。作为一次希望能有些参考价值的测试,我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大,但任务涉及深入挖掘应用程序的前后端,并找出一个连我(作为原始开发者,在AI之前)都没有一眼看出的问题。
我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃,我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。
作为一次希望能有些参考价值的测试,我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大,但任务涉及深入挖掘应用程序的前后端,并找出一个连我(作为原始开发者,在AI之前)都没有一眼看出的问题。
结果非常诱人:我能看到它已经找出了bug的要点。但在进入实现阶段之前,压缩操作总是丢弃太多信息。如果我禁用了子代理的使用,它通常能在第一次压缩通过后勉强保持任务的完整性,因为我只为一个上下文付费,而不是两个。但到了第二次压缩通过时,它几乎必然会失去理智。总结退回到了我的原始提示,甚至记错了当前工作目录的名称(!),生成了一个不存在的变体名称。从那以后,游戏实际上就结束了。
在阅读了大量关于Qwen在内存需求方面实际上优于大多数模型,以及大多数小模型无法胜任编程工作的资料后,我得出了以下结论:(1)32768是我能在足够智能的模型中安全使用的最大上下文,(2)这还不够。如果想继续玩这个游戏,我需要一台性能更强的机器。
有没有人在**这些或非常类似的条件下**取得过更好的结果?(免责声明:我不是在抨击Qwen、Mac或OpenCode。这些东西能在我的Mac上运行已经非常了不起。但我希望能看到它在实际应用中再实用一点。)谢谢!
**编辑:** 这是我的配置。
我的qwen-server别名:
alias qwen-server='llama-server -m ~/models/unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 32768 -ngl 99 --host 0.0.0.0 --port 8080'
我的opencode配置:
{
"$schema": "https://opencode.ai/config.json",
"tools": {
"task": false
},
"provider": {
"llama.cpp": {
"npm": "@ai-sdk/openai-compatible",
"name": "llama-server (local)",
"options": {
"baseURL": "http://127.0.0.1:8080/v1"
},
"models": {
"Qwen3.6-35B-A3B-UD-Q4_K_M": {
"name": "Qwen3.6-35B-A3B-UD-Q4_K_M"
}
}
}
}
}
M2 Macbook Pro, 32GB RAM.
**编辑:** Claude指出,该模型的官方模型卡上写着:“模型的默认上下文长度为262,144个token。如果遇到内存不足(OOM)错误,请考虑减小上下文窗口。但是,**由于Qwen3.6利用扩展上下文处理复杂任务,我们建议保持至少128K token的上下文长度,以保留思考能力。**” 所以标签上明明白白写着:“身高必须达到这个标准才能玩这个项目。” 也许这就是我的答案。(我还尝试了使用 `-ctk q8_0 -ctv q8_0` 进行k:v缓存量化,但这立即导致opencode无法准确记住当前目录名称。说真的,它当场就开始拼错。)
相似文章
Reddit r/LocalLLaMA
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
Reddit r/LocalLLaMA
本文讨论了在Apple M1 Max Mac上使用Zoo Code本地运行Qwen 3.6 35b混合专家模型,突出其作为电池供电的编码助手的能力。
Reddit r/LocalLLaMA
用户分享了使用 Qwen 3.6 27B 进行本地编码任务的经验,并寻求适合拥有 224GB 显存系统的更大模型(100B 以上)的推荐。
Reddit r/LocalLLaMA
一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。
Reddit r/LocalLLaMA
一份详尽指南,教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型,并驱动 pi 编码 Agent,附带优化后的启动参数与采样配置。