Qwen3.6 35B-A3B在笔记本上的运行:我的从零到一时刻
摘要
作者分享了在ASUS Zenbook Pro 14上本地运行Qwen3.6 35B-A3B的体验,在32k上下文下实现了27 TPS的生成速度,标志着向完全本地化AI以保护隐私的个人里程碑。
大家好,我是新手——因为我只有一台笔记本,而且刚刚意识到本地模型已经足够好了。所以我想分享一下我的经验,希望可能对他人有帮助,也想向这里更有经验的人学习。这是第一个在我的ASUS Zenbook Pro 14(RTX 4060 8GB显存,64GB内存)上能用的模型: * 足够快:32k上下文时生成速度约27TPS,256k上下文时约18TPS * 足够智能:能读写文件、使用技能、执行CLI命令、使用git、遵循指令,并充当有用的思考伙伴。
**为什么它对我很重要** 这对我很重要,因为这是我潜意识里决定划清界限的地方——我不想与云模型(即使是TEE模型)分享私人信息或更私密的想法。我知道我仍然可能被黑客攻击,数据被泄露,但对我来说,这与从第一个提示就交出数据是不同的。所以,我第一次拥有了这个完全本地的第二大脑。对我来说,这是一个游戏规则改变者。
**我仍然在公共事务上使用云模型** 我仍然在公共项目上使用云模型,但对于头脑风暴和简单的个人项目,本地模型现在对我来说已经足够好了。我也在研究一台更强大的台式机,也许可以做一些更严肃的编码。我已经尝到了甜头,还想要更多😄 现在每当我看到Claude的黑盒"✽ Envisioning… (41s · ↓ 2.9k tokens · thinking some more with high effort)"时,就感到非常沮丧。我完全不知道它是否在正确的方向上思考。(这是否是一种"高效"的方式则是另一回事)
**我目前在使用Qwen3.6时遇到的问题** Qwen3.6 35B A3B并不完美,以下是我观察到的一些小问题,我都可以解决: * 它会犯一些错误,但通常能自行恢复。 * 极少数情况下会陷入循环。它确实需要一些人工监控,这对我来说没问题。 * 有时它不会完整读取一个技能,或者在上下文能容纳的情况下仍无法做出最佳决策。它似乎有时有点"懒惰"。 * 它的确定性很差。不过我没有做任何调整(因为它通常能得出我需要的结果)。我想如果我用更大的量化,其中一些问题可能会得到改善。
**我的设置** 推理我用llama.cpp,配合unsloth的Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf。我的控制框架使用Pi及其pi-llama-cpp扩展。该框架在multipass中运行,并连接到运行llama.cpp的主机。我还通过一个E2EE Matrix聊天(我基于pi-messenger-bridge构建的自定义版本)连接到我的手机——虽然这意味着我必须一直开着笔记本,这很烦人。这也是我想再买一台机器、以便更舒适地24/7运行的原因。
**256k上下文(18tps)的llama.cpp参数:**
`./build/bin/llama-server -m Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 24 -np 1 -fa on -ctk q4_0 -ctv q4_0 -c 262144 --host [0.0.0.0](http://0.0.0.0) --port 8088 -ncmoe 32 --no-mmap --jinja`
**32k上下文(27tps)的llama.cpp参数:**
`./build/bin/llama-server -m Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -np 1 -fa on -ctk q4_0 -ctv q4_0 -c 32000 --host [0.0.0.0](http://0.0.0.0) --port 8088 -ncmoe 32 --no-mmap --jinja`
*你的"从零到一"时刻是什么?*
相似文章
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。
@remilouf: 在 @julien_c 的推文之后,我买了一台配备 128B 统一内存的 MacBook Pro,并开始将 Qwen3.6 作为我的日常驱…
作者分享了在配备 128GB 统一内存的 MacBook Pro 上运行 Qwen3.6 模型的经验,称赞了苹果硬件在本地 AI 推理方面的效率。
Qwen3.6 35Ba3 已改变我的工作流程,甚至我使用电脑的方式
一位用户描述了 Qwen3.6 35B 如何结合 'pi' 工具,彻底改变了他们的计算机工作流程,实现了通过自然语言控制操作系统和自动化任务执行。他们完全在本地通过语音消息成功构建了一个落地页,展示了该模型的实用价值。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。