本地运行 Qwen3.6-35B-A3B 作为编码 Agent:我的完整部署与可用配置
摘要
一份详尽指南,教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型,并驱动 pi 编码 Agent,附带优化后的启动参数与采样配置。
# 硬件 |组件|详情| |:-|:-| |**机型**|MacBook Pro (Mac14,6)| |**芯片**|Apple M2 Max — 12 核 CPU(8 性能核 + 4 能效核)| |**内存**|64 GB 统一内存| |**存储**|512 GB SSD| |**系统**|macOS 15.7 (Sequoia)| # AI Agent 配置 我使用 [**pi coding agent**](https://github.com/badlogic/pi-mono/tree/main/packages/coding-agent) 作为主力本地开发助手。它是本地优先的 AI 编码 Agent,通过 llama.cpp 连接本地模型。 **模型:** `Qwen3.6-35B-A3B`(通过 llama.cpp 运行) # pi 如何连接 llama-server pi 通过 OpenAI 兼容 API 与 llama-server 通信。配置文件位于 `~/.pi/agent/models.json`: { "providers": { "llama-cpp": { "baseUrl": "http://127.0.0.1:8080/v1", "api": "openai-completions", "apiKey": "ignored", "models": [{ "id": "Qwen3.6-35B-A3B", "contextWindow": 131072, "maxTokens": 32768 }] } } } # 启动命令 llama-server \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q5_K_XL \ -c 131072 \ -n 32768 \ --no-context-shift \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --repeat-penalty 1.00 \ --presence-penalty 0.00 \ --chat-template-kwargs '{"preserve_thinking": true}' \ --batch-size 4096 \ --ubatch-size 4096 # 参数详解 |参数|取值|说明| |:-|:-|:-| |`-hf`|`unsloth/...:UD-Q5_K_XL`|HuggingFace 仓库中 unsloth 定制的 UD 量化版本,质量/体积折中(约 19 GB)| |`-c 131072`|128 K 上下文|模型支持超长上下文,设高值方便长文档或长对话| |`-n 32768`|32 K 输出长度|单轮可生成更长内容,不易撞长度上限| |`--no-context-shift`|关闭|生成时禁止上下文位移,长回复更连贯| |`--chat-template-kwargs`|`preserve_thinking: true`|保留模型推理/思考块,输出更完整| |`--batch-size 4096`|4096|逻辑批大小,越大 prompt 处理越快,需更多内存| |`--ubatch-size 4096`|4096|物理批大小,与逻辑批保持一致| # 采样参数 采样参数(`--temp`、`--top-p`、`--top-k`、`--repeat-penalty`、`--presence-penalty`)直接沿用 [unsloth 官方针对 Qwen3.6 的推荐值](https://unsloth.ai/docs/models/qwen3.6)。官方配置开箱即用,效果稳定,因此我未做额外调整。
相似文章
@port_dev: https://x.com/port_dev/status/2054259445732110408
本文提供了一份详细教程,介绍如何通过 Unsloth Studio 和 Pi 编码框架配置基于 Qwen3.6-27B 的本地编码智能体。文章强调了使用 GGUF 量化模型在消费级硬件(如搭载 Apple Silicon 芯片的 Mac 电脑)上实现高效推理的优势。
Qwen 3.6 27B:本地开发的理想之选
Qwen 3.6 27B 被赞誉为强大的本地 AI 模型,在通用智能方面超越预期,适用于代码生成等实际任务,并能通过 llama.cpp 轻松运行。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置
用户详细介绍了他们在 RTX PRO 6000 Blackwell 上使用 llama.cpp 运行 Qwen 27B 进行本地编码代理的设置,与 Claude 模型进行了性能对比,并请求帮助解决频繁崩溃和响应格式错误的问题。
在M1 Max上使用Zoo Code运行Qwen 3.6 35b MoE真是太棒了!完全本地化、电池供电的编码利器!
本文讨论了在Apple M1 Max Mac上使用Zoo Code本地运行Qwen 3.6 35b混合专家模型,突出其作为电池供电的编码助手的能力。