本地运行 Qwen3.6-35B-A3B 作为编码 Agent:我的完整部署与可用配置

Reddit r/LocalLLaMA 工具

摘要

一份详尽指南,教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型,并驱动 pi 编码 Agent,附带优化后的启动参数与采样配置。

# 硬件 |组件|详情| |:-|:-| |**机型**|MacBook Pro (Mac14,6)| |**芯片**|Apple M2 Max — 12 核 CPU(8 性能核 + 4 能效核)| |**内存**|64 GB 统一内存| |**存储**|512 GB SSD| |**系统**|macOS 15.7 (Sequoia)| # AI Agent 配置 我使用 [**pi coding agent**](https://github.com/badlogic/pi-mono/tree/main/packages/coding-agent) 作为主力本地开发助手。它是本地优先的 AI 编码 Agent,通过 llama.cpp 连接本地模型。 **模型:** `Qwen3.6-35B-A3B`(通过 llama.cpp 运行) # pi 如何连接 llama-server pi 通过 OpenAI 兼容 API 与 llama-server 通信。配置文件位于 `~/.pi/agent/models.json`: { "providers": { "llama-cpp": { "baseUrl": "http://127.0.0.1:8080/v1", "api": "openai-completions", "apiKey": "ignored", "models": [{ "id": "Qwen3.6-35B-A3B", "contextWindow": 131072, "maxTokens": 32768 }] } } } # 启动命令 llama-server \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q5_K_XL \ -c 131072 \ -n 32768 \ --no-context-shift \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --repeat-penalty 1.00 \ --presence-penalty 0.00 \ --chat-template-kwargs '{"preserve_thinking": true}' \ --batch-size 4096 \ --ubatch-size 4096 # 参数详解 |参数|取值|说明| |:-|:-|:-| |`-hf`|`unsloth/...:UD-Q5_K_XL`|HuggingFace 仓库中 unsloth 定制的 UD 量化版本,质量/体积折中(约 19 GB)| |`-c 131072`|128 K 上下文|模型支持超长上下文,设高值方便长文档或长对话| |`-n 32768`|32 K 输出长度|单轮可生成更长内容,不易撞长度上限| |`--no-context-shift`|关闭|生成时禁止上下文位移,长回复更连贯| |`--chat-template-kwargs`|`preserve_thinking: true`|保留模型推理/思考块,输出更完整| |`--batch-size 4096`|4096|逻辑批大小,越大 prompt 处理越快,需更多内存| |`--ubatch-size 4096`|4096|物理批大小,与逻辑批保持一致| # 采样参数 采样参数(`--temp`、`--top-p`、`--top-k`、`--repeat-penalty`、`--presence-penalty`)直接沿用 [unsloth 官方针对 Qwen3.6 的推荐值](https://unsloth.ai/docs/models/qwen3.6)。官方配置开箱即用,效果稳定,因此我未做额外调整。
查看原文

相似文章

@port_dev: https://x.com/port_dev/status/2054259445732110408

X AI KOLs Timeline

本文提供了一份详细教程,介绍如何通过 Unsloth Studio 和 Pi 编码框架配置基于 Qwen3.6-27B 的本地编码智能体。文章强调了使用 GGUF 量化模型在消费级硬件(如搭载 Apple Silicon 芯片的 Mac 电脑)上实现高效推理的优势。

Qwen 3.6 27B:本地开发的理想之选

Hacker News Top

Qwen 3.6 27B 被赞誉为强大的本地 AI 模型,在通用智能方面超越预期,适用于代码生成等实际任务,并能通过 llama.cpp 轻松运行。