有人在32GB Mac上使用opencode、claude code或类似工具,通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗?

Reddit r/LocalLLaMA 新闻

摘要

我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃,我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。作为一次希望能有些参考价值的测试,我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大,但任务涉及深入挖掘应用程序的前后端,并找出一个连我(作为原始开发者,在AI之前)都没有一眼看出的问题。

我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃,我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。 作为一次希望能有些参考价值的测试,我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大,但任务涉及深入挖掘应用程序的前后端,并找出一个连我(作为原始开发者,在AI之前)都没有一眼看出的问题。 结果非常诱人:我能看到它已经找出了bug的要点。但在进入实现阶段之前,压缩操作总是丢弃太多信息。如果我禁用了子代理的使用,它通常能在第一次压缩通过后勉强保持任务的完整性,因为我只为一个上下文付费,而不是两个。但到了第二次压缩通过时,它几乎必然会失去理智。总结退回到了我的原始提示,甚至记错了当前工作目录的名称(!),生成了一个不存在的变体名称。从那以后,游戏实际上就结束了。 在阅读了大量关于Qwen在内存需求方面实际上优于大多数模型,以及大多数小模型无法胜任编程工作的资料后,我得出了以下结论:(1)32768是我能在足够智能的模型中安全使用的最大上下文,(2)这还不够。如果想继续玩这个游戏,我需要一台性能更强的机器。 有没有人在**这些或非常类似的条件下**取得过更好的结果?(免责声明:我不是在抨击Qwen、Mac或OpenCode。这些东西能在我的Mac上运行已经非常了不起。但我希望能看到它在实际应用中再实用一点。)谢谢! **编辑:** 这是我的配置。 我的qwen-server别名: alias qwen-server='llama-server -m ~/models/unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 32768 -ngl 99 --host 0.0.0.0 --port 8080' 我的opencode配置: { "$schema": "https://opencode.ai/config.json", "tools": { "task": false }, "provider": { "llama.cpp": { "npm": "@ai-sdk/openai-compatible", "name": "llama-server (local)", "options": { "baseURL": "http://127.0.0.1:8080/v1" }, "models": { "Qwen3.6-35B-A3B-UD-Q4_K_M": { "name": "Qwen3.6-35B-A3B-UD-Q4_K_M" } } } } } M2 Macbook Pro, 32GB RAM. **编辑:** Claude指出,该模型的官方模型卡上写着:“模型的默认上下文长度为262,144个token。如果遇到内存不足(OOM)错误,请考虑减小上下文窗口。但是,**由于Qwen3.6利用扩展上下文处理复杂任务,我们建议保持至少128K token的上下文长度,以保留思考能力。**” 所以标签上明明白白写着:“身高必须达到这个标准才能玩这个项目。” 也许这就是我的答案。(我还尝试了使用 `-ctk q8_0 -ctv q8_0` 进行k:v缓存量化,但这立即导致opencode无法准确记住当前目录名称。说真的,它当场就开始拼错。)
查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。