有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

Reddit r/LocalLLaMA 2026/04/19 23:54 新闻

local-llm on-device-ai coding-assistant quantization llama-cpp context-window open-source

摘要

我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃，我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。作为一次希望能有些参考价值的测试，我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大，但任务涉及深入挖掘应用程序的前后端，并找出一个连我（作为原始开发者，在AI之前）都没有一眼看出的问题。结果非常诱人：我能看到它已经找出了bug的要点。但在进入实现阶段之前，压缩操作总是丢弃太多信息。如果我禁用了子代理的使用，它通常能在第一次压缩通过后勉强保持任务的完整性，因为我只为一个上下文付费，而不是两个。但到了第二次压缩通过时，它几乎必然会失去理智。总结退回到了我的原始提示，甚至记错了当前工作目录的名称（！），生成了一个不存在的变体名称。从那以后，游戏实际上就结束了。在阅读了大量关于Qwen在内存需求方面实际上优于大多数模型，以及大多数小模型无法胜任编程工作的资料后，我得出了以下结论：（1）32768是我能在足够智能的模型中安全使用的最大上下文，（2）这还不够。如果想继续玩这个游戏，我需要一台性能更强的机器。有没有人在**这些或非常类似的条件下**取得过更好的结果？（免责声明：我不是在抨击Qwen、Mac或OpenCode。这些东西能在我的Mac上运行已经非常了不起。但我希望能看到它在实际应用中再实用一点。）谢谢！ **编辑：** 这是我的配置。我的qwen-server别名： alias qwen-server='llama-server -m ~/models/unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 32768 -ngl 99 --host 0.0.0.0 --port 8080' 我的opencode配置： { "$schema": "https://opencode.ai/config.json", "tools": { "task": false }, "provider": { "llama.cpp": { "npm": "@ai-sdk/openai-compatible", "name": "llama-server (local)", "options": { "baseURL": "http://127.0.0.1:8080/v1" }, "models": { "Qwen3.6-35B-A3B-UD-Q4_K_M": { "name": "Qwen3.6-35B-A3B-UD-Q4_K_M" } } } } } M2 Macbook Pro, 32GB RAM. **编辑：** Claude指出，该模型的官方模型卡上写着：“模型的默认上下文长度为262,144个token。如果遇到内存不足（OOM）错误，请考虑减小上下文窗口。但是，**由于Qwen3.6利用扩展上下文处理复杂任务，我们建议保持至少128K token的上下文长度，以保留思考能力。**” 所以标签上明明白白写着：“身高必须达到这个标准才能玩这个项目。” 也许这就是我的答案。（我还尝试了使用 `-ctk q8_0 -ctv q8_0` 进行k:v缓存量化，但这立即导致opencode无法准确记住当前目录名称。说真的，它当场就开始拼错。）

查看原文

有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

相似文章

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

在M1 Max上使用Zoo Code运行Qwen 3.6 35b MoE真是太棒了！完全本地化、电池供电的编码利器！

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

本地运行 Qwen3.6-35B-A3B 作为编码 Agent：我的完整部署与可用配置

提交意见反馈