Qwen3.6 35B-A3B在笔记本上的运行:我的从零到一时刻

Reddit r/LocalLLaMA 新闻

摘要

作者分享了在ASUS Zenbook Pro 14上本地运行Qwen3.6 35B-A3B的体验,在32k上下文下实现了27 TPS的生成速度,标志着向完全本地化AI以保护隐私的个人里程碑。

大家好,我是新手——因为我只有一台笔记本,而且刚刚意识到本地模型已经足够好了。所以我想分享一下我的经验,希望可能对他人有帮助,也想向这里更有经验的人学习。这是第一个在我的ASUS Zenbook Pro 14(RTX 4060 8GB显存,64GB内存)上能用的模型: * 足够快:32k上下文时生成速度约27TPS,256k上下文时约18TPS * 足够智能:能读写文件、使用技能、执行CLI命令、使用git、遵循指令,并充当有用的思考伙伴。 **为什么它对我很重要** 这对我很重要,因为这是我潜意识里决定划清界限的地方——我不想与云模型(即使是TEE模型)分享私人信息或更私密的想法。我知道我仍然可能被黑客攻击,数据被泄露,但对我来说,这与从第一个提示就交出数据是不同的。所以,我第一次拥有了这个完全本地的第二大脑。对我来说,这是一个游戏规则改变者。 **我仍然在公共事务上使用云模型** 我仍然在公共项目上使用云模型,但对于头脑风暴和简单的个人项目,本地模型现在对我来说已经足够好了。我也在研究一台更强大的台式机,也许可以做一些更严肃的编码。我已经尝到了甜头,还想要更多😄 现在每当我看到Claude的黑盒"✽ Envisioning… (41s · ↓ 2.9k tokens · thinking some more with high effort)"时,就感到非常沮丧。我完全不知道它是否在正确的方向上思考。(这是否是一种"高效"的方式则是另一回事) **我目前在使用Qwen3.6时遇到的问题** Qwen3.6 35B A3B并不完美,以下是我观察到的一些小问题,我都可以解决: * 它会犯一些错误,但通常能自行恢复。 * 极少数情况下会陷入循环。它确实需要一些人工监控,这对我来说没问题。 * 有时它不会完整读取一个技能,或者在上下文能容纳的情况下仍无法做出最佳决策。它似乎有时有点"懒惰"。 * 它的确定性很差。不过我没有做任何调整(因为它通常能得出我需要的结果)。我想如果我用更大的量化,其中一些问题可能会得到改善。 **我的设置** 推理我用llama.cpp,配合unsloth的Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf。我的控制框架使用Pi及其pi-llama-cpp扩展。该框架在multipass中运行,并连接到运行llama.cpp的主机。我还通过一个E2EE Matrix聊天(我基于pi-messenger-bridge构建的自定义版本)连接到我的手机——虽然这意味着我必须一直开着笔记本,这很烦人。这也是我想再买一台机器、以便更舒适地24/7运行的原因。 **256k上下文(18tps)的llama.cpp参数:** `./build/bin/llama-server -m Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 24 -np 1 -fa on -ctk q4_0 -ctv q4_0 -c 262144 --host [0.0.0.0](http://0.0.0.0) --port 8088 -ncmoe 32 --no-mmap --jinja` **32k上下文(27tps)的llama.cpp参数:** `./build/bin/llama-server -m Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -np 1 -fa on -ctk q4_0 -ctv q4_0 -c 32000 --host [0.0.0.0](http://0.0.0.0) --port 8088 -ncmoe 32 --no-mmap --jinja` *你的"从零到一"时刻是什么?*
查看原文

相似文章

Qwen3.6 35Ba3 已改变我的工作流程,甚至我使用电脑的方式

Reddit r/LocalLLaMA

一位用户描述了 Qwen3.6 35B 如何结合 'pi' 工具,彻底改变了他们的计算机工作流程,实现了通过自然语言控制操作系统和自动化任务执行。他们完全在本地通过语音消息成功构建了一个落地页,展示了该模型的实用价值。