本地Qwen并非更差的Opus,而是不同的工具

Lobsters Hottest 新闻

摘要

Alex Ellis比较了本地Qwen模型与云端的Claude Opus,分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值,同时也承认了其局限性,例如量化时出现的幻觉和无限循环。

<p><a href="https://lobste.rs/s/sgebfp/local_qwen_isn_t_worse_opus_it_s_different">评论</a></p>
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:58

# 本地 Qwen 不是更差的 Opus,它是不同的工具 来源:https://blog.alexellis.io/local-ai-is-not-opus/ 我们都听过有人说本地的 Qwen 27B 或 35-A3B 是“接近 Opus 级别”,但我手上有来自软件公司和开源项目的实际账本,我在这里坦诚地告诉你。 > 这篇长文是有原因的。它不是在 X 上轻描淡写地看一眼就声称“取消 Claude Max”,也不是 hobbyist 用 32K 上下文窗口、个位数 token/秒 的模型跑出来的报告。它也不是某个著名 CEO 在飞机上发推文说“用 AI 写代码”。这是一位小型软件公司创始人的亲身经历。本地模型确实产生了真正的、有条件的价值。我与这件事利益相关,但我既没有推广云端模型也没有推广本地模型的动机,反而强烈希望本地模型能变得有能力和可靠。 我会介绍:这块显卡如何在前两三个月就回本,它如何持续服务于我们特定的业务用例,为什么我仍然不能完全信任它无人监督,以及 Qwen 最糟糕的特点:无限循环和幻觉风险。当你把它量化压缩以塞进消费级 GPU 时,这些问题最为明显。 为 RTX 6000 Pro 接电源线 > 为 RTX 6000 Pro 接电源线 **关于我使用 AI 的场景** 作为一名维护者和创始人的旅程始于 OpenFaaS —— 完全手工构建,就像 2016 年乃至最近的所有软件一样。这意味着我独自打下了项目的核心,然后通过社区邀请其他人参与——不是因为我一个人做不到,而是因为我的目标是建立一个成功的开源项目。大约 2017 年,我试图通过加入 VMware 来养活自己,2019 年市场变化后,我需要自己找钱来支持工作,因此转向了开放核心模式,建立了一家自筹资金的公司。如今,我们的小团队维护着:OpenFaaS(https://openfaas.com/)、SlicerVM(https://slicervm.com/)——AI 沙箱和“Linux 缺失的 API”、Actuated.com(https://actuated.com/)——GitHub/GitLab 的自托管 CI 运行器,以及 Inlets.com(https://inlets.dev/)——自托管 HTTP/TCP 隧道。 这些产品都使用了非常底层的 Linux 原语,如容器、Kubernetes、Firecracker 微虚拟机以及网络协议。粗略一看,它们都是强调效率、用户体验、控制和自主性的基础设施产品。它们用 Go 编写,有些带有基于 React 的 UI 组件、落地页、文档、代理技能和命令行工具。除了代码,我们还提供一流的支持,因为我们精益求精,愿意做那些规模不经济的事情来帮助客户。 从 AI 工具一开始出现我就在使用——从早期 VS Code 中的标签补全,到让 ChatGPT 生成代码块或找 bug,再到每天在 tmux 里待 12 小时。我在 tmux 里待得太久了,以至于我写了一个免费工具 Superterm.dev(https://superterm.dev/)来跟踪我的会话、笔记,并从编码代理那里获得视觉反馈。在那段时间里,我见证了能力从“减少样板代码”到“端到端的设计、架构和测试”的演变。现在主要是 Claude 或 Codex 完成了我的大部分工作。虽然我很不愿意这么说,但我几乎很少手动写代码了。 **前沿智能的转折点** 我想大概是在 2025 年 11 月到 2026 年 1 月之间,我们看到了一个转折点。X 上的许多开发者开始宣扬 Claude Opus 已经改变了,现在能够完成他们所有的工作。手动编码变得像离开冰箱的牛奶一样迅速变质。顶级编码计划的成本对于个人来说大约固定在 200 美元/月。这是一个真实的数字,但对于它们产生的价值来说是可以接受的。即使到今天,只要你避免太多无人照看的工作,还是可以勉强撑过 5 小时限制和每周限制,只要小心点。 **本地模型的魅力** > 有一种观点认为:“既然能用得起最好的,为什么要用差一点的?” 2026 年无疑是一个新的前沿:我们发现任何想法都可以在一夜之间被一个你从未听说过的人通过订阅克隆出来,而且这个人可能在一个发展中国家。我亲眼看到我们的 SlicerVM 产品(最初于 2022 年手工编写)和 Superterm(2026 年新推出,100% 由编码代理编写)也发生了同样的事。这并非说一个 vibecoded 的克隆能完全等同于一个经过良好工程架构并有经验丰富的团队支持的解决方案,但在一个软件成本趋近于零的市场里,“免费且足够好”可能就足够了。 那么,在这样一个竞争激烈的环境中,为什么要限制自己使用更差的东西呢?这不是机会成本吗?这不是在拿自己的生计冒险吗? 据估计,领先的模型包含 0.5 到 2 万亿个参数。这不仅仅是“略多一点”或“几倍于”本地硬件上的最佳模型——这是一个不同的量级。参数数量大致代表了容量、知识和推理能力。然而,即使是一个像 Qwen 3.6 27B 这样的小型稠密模型,也能在 SWE-Bench Verified(https://qwen.ai/blog?id=qwen3.6-27b)上获得 77.2 的可靠基准分数,而 Claude Opus 4.8 是 88.6%。 所以,如果你跑到 X 上大喊“本地模型只比 SOTA 差 12%”,也是情有可原的。很多人这么做了,包括展示一次性生成的太空侵略者游戏演示。你甚至会声称一块用了 6 年的 GPU 可以取代你每月 200 美元的 ChatGPT Pro 订阅——确实有很多人这么声称。 **Benchmaxxing(刷基准)** 基准测试是一个移动的目标,而且由于它们广泛可用,模型可以通过训练和调整来获得比正常情况下更高的分数。经典的 SWE-Bench Verified 基准测试基于一系列开源项目中的 Python 问题。Python 有线程和 async,但你遇到的大多数代码都是单线程和同步的。相比之下,我们用 Go 编写分布式系统,其中通道(channel)、上下文(context)和结构体(struct)跨越了很大的执行域。 **成本** 有一种很流行的观点认为“本地模型不关乎成本”,这来自于一种特权地位。个人可以使用每月 200 美元的编码计划,提供整个工作日的大量使用量。照此看来,你获得的是 SOTA 级别的智能,事物正常运转且质量上乘的最佳机会,无论是找到那个 bug 还是生成那个落地页。 编码计划显然是有补贴的。看看 GitHub Copilot 计划发生了什么就知道了。他们一开始以每月 39 美元的价格提供 1500 次请求,你可以用很少的钱用很久。后来 GitHub/Microsoft/Azure 发生了某些未公开的变化,他们把所有用户都转到了基于 token 的定价上,引起了巨大的反弹。真正的成本被隐藏了太久,我们已经习以为常了。 现在,如果你按 API 费率支付 token 费用,临界点来得比我们许多人意识到的要快。最近,Uber 将每位开发者每月的 AI 工具支出上限(https://uk.finance.yahoo.com/news/uber-caps-monthly-employee-ai-180608705.html)设在了 1500 美元。Uber 的中位工资是年薪 33 万美元。所以如果一位开发者最大程度地使用两个工具,费用大约占其年薪的 12%。 因此,对于重度使用、循环、代理分析、通过 SaaS 系统部署的产品内功能,开放权重或本地模型可以提供巨大的价值。排除成本因素是不公平的,但对很多人来说,这也不是主要问题。 **主权与隐私** 我们与许多非常重视数据管控的企业客户合作。粗略一看我们的产品线,全都是关于隐私和主权的。OpenFaaS 在你的基础设施上运行函数,使用你的限制、偏好的语言和事件。SlicerVM 不在抽象的云裸金属上运行微虚拟机,而是在你自己的设备上运行,甚至是你的 MacBook。Inlets 运行隧道,你可以 100% 私密地控制隧道客户端和服务器。Actuated 去掉了 GitHub Actions 的繁琐部分,说“在你的机器上安装一个代理,然后忘了它吧”。 因此,我们自然被本地模型所吸引——这既源于我们的核心价值观和对互联网应有的信念,也源于义务。 你可能并不持有这些信念,你可能不处理任何客户数据,但如果你住在美国以外,Anthropic 一夜之间移除 Fable 5 模型可能会让你感到震惊。换句话说,存在严重的供应商风险,而我们很多人都对来源上瘾了。 本地模型是解决方案:“如果前沿实验室做 X 怎么办?” ## 淬火刀锋 我说过本地模型与 SOTA 不是同一个工具。这是什么意思? 我用手工工具制作家具,偶尔也会像发布开源项目来挠痒痒一样,制作一些边缘工具,比如凿子、开槽刨刀片、划针、用于雕刻的斯洛伊德刀(Sloyd knife)。 淬火一把划针 > 在加热的锉刀背上淬火一把日式划针,直到它变成稻草色。 根据你能投入多少,有两种处理钢材的方法。锻造是取一块生钢,加热后用锤子敲打成所需的形状。这被视为最纯粹、最光荣的方法——“真正的方法”。对于较小的物件,“去料加工”则更容易上手。它包括取一块钢板,切割出形状,然后打磨出斜面或尖点。 但这只是成型。然后你必须加热钢材,并在油或水中淬火。这会使钢变得极硬,以至于如果掉到地上,会碎成碎片。所以我们必须擦掉黑色的浮渣,再次加热,观察彩虹色的变化。如果我们往需要的颜色多过了一分,就必须重新开始热处理。 我们团队对本地模型的体验,恰恰就像错过了淬火颜色。模型跑得太热,超过了目标,开始循环。没有什么能修复它,只能关闭框架,希望清除的上下文能给出不同的结果。 我永远不会把淬火刀片放在一边无人照看,就像我永远不会让 Qwen 3.6 27B 独自处理一个长周期任务一样。对于钢材,解决方法是使用窑炉或温控烘箱来消除变异性。 我们锻造的那把斯洛伊德刀可以用来敲钉子,但你很可能会割伤手,同时也毁了刀刃。让我们回到起点,如果它是一个不同的工具,它擅长什么? **我在寻找什么** 我在寻找上一节中提到的所有东西:隐私、固定成本以及对供应商风险的防护。我失望的地方在于,当我在 opencode 中以对待 Claude 或 Codex 的方式对待本地模型时。它们(Claude/Codex)可以完全无人照看地工作很长时间,同时朝着目标取得真正的进展,这几乎有点诡异。 我可以粘贴类似这样的内容:“Eoin 告诉我他一直在循环运行 Slicer VM,用完了文件描述符。他怀疑是 VSock。”然后几分钟后 Claude 回复:“现在我明白了全貌:你在做 X,你需要做 Y。”我说:“在我的迷你电脑上做这件事,并进行端到端测试。”然后过一段时间——5 或 15 分钟后,我可以提交一个 PR,让它自动进行代码审查,然后让 Claude 阅读它并再次迭代。 对于我们这样一个小团队来说,这是一个非常高效的循环。我们管理着多个产品,并与企业和社区用户紧密合作。 **来自 3090 的深刻教训** 我在 2023 年开始使用一张 3090 卡,很快意识到我需要另一张才能加载模型并拥有足够的上下文。2023 年的本地模型没有什么值得在这里提及的,除了它们太难用了以至于我放弃了。Qwen 3.5 是我第一次看到代理真正完成工作。 我可以在 Q4 量化下把模型加载到任意一张卡里,拥有 200K 上下文(也量化了),并让它做小任务,但需要指导。我还记得事情恶化得有多快。我告诉模型:“从各个角度探索这台机器,完成一份关于这台机器及其使用情况的取证报告。”——Claude 原本可以轻松处理。但 Qwen 开始逐个读取我机器上的每个文件,填满了它的上下文,然后开始幻觉文件名,甚至工具调用 `~/faas-netes` 变成了 `~/faaned`。退一步说,如果我限定任务范围:“快速查看一下这台机器,告诉我谁在使用它以及用来做什么。”我能得到一份非常清晰的报告,生成速度大约在 40-50 token/秒。 一个 27B 模型根本无法以完整保真度装入一张 3090 卡。所以可调节的旋钮和拨盘包括:模型权重的压缩程度(量化)、上下文长度,以及上下文的键和值的压缩程度。 有一个众所周知的经验法则:在 KV 缓存的键部分使用 Q4_0 时,坏事就开始发生了。我使用过的最激进的配置是键用 Q8_0,值用 Q4_0。 3090 卡一直是头疼的源泉——我必须量化到远远低于我舒适区的位置。其中一张卡只有在开机时交叉手指才会出现。甚至重启也解决不了——我必须断开交流电源并拔掉电源线每次 30 秒。 我最近的实验是设置 vLLM(生产环境和并发服务的黄金标准)。即使有 NVLink(175 英镑)并开启了张量并行,在相同设置下,生成速度比 llama.cpp 还慢了 3 token/秒。 我把更多时间花在让它们工作上,而不是花在结果上。 **大手笔花钱** 我们向使用我们产品的企业公司提供支持合同。当有工单进来时,我们有动力尽快解决它。我认为买一张能消除所有小毛病的显卡可以解决本地模型的问题,而客户支持值得冒这个风险。 我们花了大约 12000 美元买了一块 RTX 6000 Pro Blackwell 版,拥有 96GB 显存。即使过了几个月,价格已经涨到了大约 15400 美元,所以再加一张就变得很难合理化。你不能像“再插一张卡”进消费级机器。有很多顾虑:PCI 通道、带宽、显卡间距以及电源的功耗。 这是一个经过计算的下注,而且已经回本了。但并不是因为它取代了我们的 Claude 订阅——它做不到。 **无痛的客户支持,无需泄露客户数据** 许多企业公司的运维人员能力很强,但受到手动流程和实践的束缚。有时你很幸运,有人会按照故障排除指南一步步检查,并告诉你他们做错了什么。其他时候,你陷入一个 150 封邮件的线程深处,他们仍然没有运行那个能解答所有问题的命令。 因此我们编写了“diag”,一个 CLI 工具,方便运维人员运行,它能捕获 OpenFaaS 在 Kubernetes 上安装的完整快照。然后他们可以将这个转储通过电子邮件发送给我们,我们可以在由 Slicer 创建的临时虚拟机中,通过一个隔离的本地模型运行它。你可以在 OpenFaaS 博客上阅读更多关于我们发现的问题:Introducing: Painless support and hands-off architecture reviews(https://www.openfaas.com/blog/painless-support-with-diag/)。 **收入追回** 最近有一个续约案例。正因为我将遥测数据库喂给了本地模型,我们才发现他们在过去 12 个多月里少报了许可证,少付了大约 4-5 倍的费用。仅这笔收入追回就支付了显卡的费用。 我绝不会凭良心把客户数据

相似文章

本地模型优化(3 分钟阅读)

TLDR AI

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。