本地运行 Qwen3.6-35B-A3B 作为编码 Agent：我的完整部署与可用配置

Reddit r/LocalLLaMA 2026/04/22 03:20 工具

摘要

一份详尽指南，教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型，并驱动 pi 编码 Agent，附带优化后的启动参数与采样配置。

# 硬件 |组件|详情| |:-|:-| |**机型**|MacBook Pro (Mac14,6)| |**芯片**|Apple M2 Max — 12 核 CPU（8 性能核 + 4 能效核）| |**内存**|64 GB 统一内存| |**存储**|512 GB SSD| |**系统**|macOS 15.7 (Sequoia)| # AI Agent 配置我使用 [**pi coding agent**](https://github.com/badlogic/pi-mono/tree/main/packages/coding-agent) 作为主力本地开发助手。它是本地优先的 AI 编码 Agent，通过 llama.cpp 连接本地模型。 **模型：** `Qwen3.6-35B-A3B`（通过 llama.cpp 运行） # pi 如何连接 llama-server pi 通过 OpenAI 兼容 API 与 llama-server 通信。配置文件位于 `~/.pi/agent/models.json`： { "providers": { "llama-cpp": { "baseUrl": "http://127.0.0.1:8080/v1", "api": "openai-completions", "apiKey": "ignored", "models": [{ "id": "Qwen3.6-35B-A3B", "contextWindow": 131072, "maxTokens": 32768 }] } } } # 启动命令 llama-server \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q5_K_XL \ -c 131072 \ -n 32768 \ --no-context-shift \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --repeat-penalty 1.00 \ --presence-penalty 0.00 \ --chat-template-kwargs '{"preserve_thinking": true}' \ --batch-size 4096 \ --ubatch-size 4096 # 参数详解 |参数|取值|说明| |:-|:-|:-| |`-hf`|`unsloth/...:UD-Q5_K_XL`|HuggingFace 仓库中 unsloth 定制的 UD 量化版本，质量/体积折中（约 19 GB）| |`-c 131072`|128 K 上下文|模型支持超长上下文，设高值方便长文档或长对话| |`-n 32768`|32 K 输出长度|单轮可生成更长内容，不易撞长度上限| |`--no-context-shift`|关闭|生成时禁止上下文位移，长回复更连贯| |`--chat-template-kwargs`|`preserve_thinking: true`|保留模型推理/思考块，输出更完整| |`--batch-size 4096`|4096|逻辑批大小，越大 prompt 处理越快，需更多内存| |`--ubatch-size 4096`|4096|物理批大小，与逻辑批保持一致| # 采样参数采样参数（`--temp`、`--top-p`、`--top-k`、`--repeat-penalty`、`--presence-penalty`）直接沿用 [unsloth 官方针对 Qwen3.6 的推荐值](https://unsloth.ai/docs/models/qwen3.6)。官方配置开箱即用，效果稳定，因此我未做额外调整。

查看原文

本地运行 Qwen3.6-35B-A3B 作为编码 Agent：我的完整部署与可用配置

相似文章

@port_dev: https://x.com/port_dev/status/2054259445732110408

Qwen 3.6 27B：本地开发的理想之选

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置

在M1 Max上使用Zoo Code运行Qwen 3.6 35b MoE真是太棒了！完全本地化、电池供电的编码利器！

提交意见反馈