Ask HN: 有没有人用本地模型替代 Claude/GPT 进行日常编码？

Hacker News Top 2026/06/15 14:46 新闻

local-models coding ai-assistant open-source llm hacker-news

摘要

Hacker News 上的一场讨论探讨了开发者是否可以在日常编码中用本地模型替代像 Claude 这样的云端 AI 模型。参与者分享了经验，指出本地模型（例如 Qwen、Gemma）对爱好者来说可行，但在专业使用上仍落后于顶级云端模型。

这里有人完全用本地模型取代 Claude/GPT 作为主要编码工具，而不仅仅是用于辅助实验吗？如果是这样，请分享你的设置和性能（例如 tok/s）

查看原文

查看缓存全文

缓存时间: 2026/06/15 18:00

# Ask HN：有没有人已经用本地模型替代了 Claude/GPT 进行日常编码？来源：https://news.ycombinator.com/item?id=48542100 https://news.ycombinator.com/vote?id=48544836&how=up&goto=item%3Fid%3D48542100 *“质量大约相当于 8-12 个月前的边缘模型。”* 对于爱好者来说听起来不错，但依我拙见，直到六个月前（2025 年 12 月 25 日）Opus 4.6 发布，我们才拥有一个足够好的模型，让专业人士用来驱动他们的编码智能体。这似乎是一个值得追求的门槛。 https://news.ycombinator.com/vote?id=48544849&how=up&goto=item%3Fid%3D48542100 我正在用，体验不错，能完成工作，但要知道，他们说“质量大约相当于 8-12 个月前的边缘模型”时是认真的。别指望 Opus，期望值更接近 Haiku。如果你微观管理它，会得到很好的结果。如果你希望它像一个装在盒子里的真人，那它就表现不佳了。 https://news.ycombinator.com/vote?id=48544860&how=up&goto=item%3Fid%3D48542100 我很期待在家使用 Claude Fable。那才是我会**考虑**替换 Claude 的时候（谁知道他们下一个模型能做什么，Fable 在我使用的那三天里表现非常出色）。 https://news.ycombinator.com/vote?id=48544680&how=up&goto=item%3Fid%3D48542100 个人使用的话，是的。我用一个每月的 $100 订阅的 Claude，转而运行 pi harness 指向 unsloth studio，根据心情使用 qwen （unsloth/Qwen3.6-35B-A3B-MTP-GGUF）和 gemma （unsloth/gemma-4-26B-A4B-it-GGUF）模型。我有一台大约五年前组装的双 RTX3090 机器（本来就要组装新游戏机，刚好 llama 发布，就又加了一块二手 3090），在这些模型上（UD-Q4_K_XL 量化）大约能跑 ~150tok/s，并且可以在不超出 VRAM 的情况下使用整个 300k 上下文长度。说清楚——它不如 Claude 好。但它是免费的，而且也没有差到影响很大的地步。对于我的个人需求来说，免费胜过每月 $100。我还有一个 openclaw 实例指向同一个推理服务器，用起来很棒（本地模型真正可靠的用例）。一些示例项目： - 安卓电视的替代启动器（带儿童使用监控和追踪） - 我的 k8s 集群服务的自定义管理门户 - 自定义 Home Assistant 集成/自动化（最近是用于电源监控和切换的 Shelly 设备） - 购物清单管理和膳食计划（主要通过 openclaw） - comfyui 中用于 3D 资源生成的自定义工作流 --- 长话短说，如果你想通过软件赚钱……我还是建议使用付费提供商。但本地模型也能完成很酷的事情。 https://news.ycombinator.com/vote?id=48544369&how=up&goto=item%3Fid%3D48542100 这个问题的问题在于它涵盖了一个巨大的能力和期望范围。如果你只能运行一个 8B 模型，并期望它在“氛围编码”/一次性完成任务方面表现出色，那你会很痛苦。如果你能运行大约 30B 规模的模型，你会发现，对于范围合理、定义明确的任务，它们做得非常好。我发现 Gemma4-31B 和 Qwen3.6-27B 是目前这个范围内最好的。你可以换成 MoE 模型以获得更快的推理速度，但它们在大多数任务上明显更差。它们可以一次性完成/“氛围编码”小范围的任务，但在有指导的情况下仍然表现更好。如果你真的想要前沿水平的能力，你可能至少需要 128GB 内存，以及大量的算力或极大的耐心。大多数人既没有钱也没有耐心让这些本地模型工作起来。使用本地模型所需的耐心远不止等待 token 生成。你需要付出很多努力才能让它针对你的工作流和硬件正确配置并运行。 https://news.ycombinator.com/vote?id=48544606&how=up&goto=item%3Fid%3D48542100 我在我的 Macbook（M4 Pro，48 GB 内存）上用 Gemma 4 26B A4B 学习 Rust（并问其他各种问题）。我不信任它能很好地在 IDE/工具中一次性完成除了最琐碎修改之外的任何事情。不过，它速度快且足够好，可以胜任小到中等上下文任务中的“副驾驶”角色，只要你手握方向盘，目光注视道路——并且以低于限速的速度行驶。考虑到两年前的情况，这已经很了不起了。如果不是这样，我想我根本不会用 AI 来编程。（我不想仅仅因为失去网络连接就感到受限或卡住。） https://news.ycombinator.com/vote?id=48544749&how=up&goto=item%3Fid%3D48542100 对于个人需求，我把 VSCode 连接到 llama.cpp 运行 Qwen 3.6 27B 或 Gemma 4 31B，这已经足够好了，可以取消我的云订阅。 Qwen 在我的第一张 GPU 上以 q4@176k 上下文运行，速度从 70 到 50 tok/s（带 MTP），编码表现不错。 Gemma 则使用两张 GPU，以 q8@64k 上下文运行，进行文档情感分析、摘要、校对和翻译，速度稳定在 25 tok/s。有点慢，但对于批处理工作流来说可用。等 llama.cpp 开始支持带 tensor split 模式的 MTP 后，速度可能会更快。白天工作仍然使用前沿 LLM，因为不用我付钱，而且它们显然更好。希望一年左右我们能有一个 Sonnet 4.6/Opus 4.5 级别的 30B 模型。 https://news.ycombinator.com/vote?id=48544681&how=up&goto=item%3Fid%3D48542100 是的，在 Strix Halo 128GB（Bosgame M5）上运行 Qwen3.6-35B-A3B。对于这个模型来说我的 VRAM 多得太多了，但 Qwen 从未发布 Qwen3.6 的 122B 版本，那才是最适合我硬件的模型类别。不过同时我的电费可以忽略不计，这原本是笔记本电脑芯片，表现很明显，空闲时几乎不耗电，处理提示时略高于 120W。而且 Qwen3.6 对我的效果出奇地好，我仍然偶尔使用 Claude，但只占我需求的 10% 左右，这让我即使使用最便宜的套餐也能远低于配额限制。速度：提示处理约 800tps，token 生成 50tps（无推测解码）。 https://news.ycombinator.com/vote?id=48544206&how=up&goto=item%3Fid%3D48542100 我觉得你不会得到太多“真实”的答案。不使用最新最好模型的机会成本现在太高了。我每个月都研究这个问题，得出同样的结论：让本地模型（以及围绕它们的编码工具）达到甚至接近 Claude Code 搭配 sonnet/opus 的表现，所需的时间、精力和成本目前并不值得。如果值得，它早就足够普及而上新闻了。并不是说没人已经解决了这个问题，只是想用奥卡姆剃刀原则避免自己陷入太深的兔子洞。 https://news.ycombinator.com/vote?id=48544638&how=up&goto=item%3Fid%3D48542100 但你基本上是在用每秒 token 数来衡量机会成本，对吧？我认为，每秒 token 数（乘以或其他方式结合私有模型的感知质量）是否真的意味着“更好或更有用的输出”，这点还远未可知。我强烈怀疑并非如此。（虽然我也强烈怀疑这会很难衡量，因为这里存在很强的撒谎动机。） https://news.ycombinator.com/vote?id=48544767&how=up&goto=item%3Fid%3D48542100 AI 实验室会一直确保至少保持一年的差距吗？我猜其基本商业前提是每次新发布都有一个阶梯式的函数变化，以防止这种行为…… https://news.ycombinator.com/vote?id=48544741&how=up&goto=item%3Fid%3D48542100 我试过一段时间，用 llama.cpp + Qwen + Mac Pro，但结果非常差（质量和速度都不行）。我考虑过投资更好的硬件，但算了一下，对我来说付费使用 DeepSeek 更便宜（是的，我知道不是每个人都能这么做）。 https://news.ycombinator.com/vote?id=48544634&how=up&goto=item%3Fid%3D48542100 我通过在工作流中将多个“智能体”串联起来，在本地模型上取得了一些成功。每个智能体有不同的提示，并根据其角色使用不同的 ollama 模型。项目经理、schema 智能体（qwen3:14b）等，使用的模型与编码智能体（qwen2.5-coder:7b）不同。每一步之间有一个编排器，以及一个 Playwright 任务，试图将错误暴露给引入前一个代码块的智能体。只有无错误的代码块才会被转发到下一步。最大的改进可能是包含一个 backend-for-agents 服务定义，它指示 schema 智能体只根据任务生成一个清单，然后将这个清单传递给下一个智能体。简而言之，我通过定义一个工作流将任务拆分成许多小块，其中智能体只被允许做非常具体的事情，然后其工作被传递下去。这让他们保持脚踏实地和有能力，同时也为我创造了干预的空间，例如如果某个工作流只完成了 25% 或 90%。 https://news.ycombinator.com/vote?id=48544640&how=up&goto=item%3Fid%3D48542100 我正好在研究这个问题。我的方法是，一个高度优化的工具（pi.dev）搭配正确的后台知识库（一个自定义、自我更新的 wiki，带有大量质量控制层），可以接近我大部分使用 Claude Max 20 倍订阅的使用模式。我使用 Gemma 4 26B QAT，由一个自定义的 llama.cpp 分支提供，具有 4-8 个插槽，每个插槽 256k 上下文，Q8 量化。当工具让它保持在轨道上时，这是一个非常好的模型。在 1M 上下文窗口的时代，256k 可能看起来很小，但对于我的工作（科学编程）来说已经足够了。每月 $20 的 Ollama-cloud 订阅让我可以很好地咨询前沿模型，以处理困难的计划或调试（同样，这一切都集成在我高度自定义的 pi 安装中）。我仍在优化它（显然是用 Claude），但我的测试非常鼓舞人心。我非常担心公司（和政府）控制对机器智能的访问，所以本地化是出路。 https://news.ycombinator.com/vote?id=48543466&how=up&goto=item%3Fid%3D48542100 不是“本地”，也不是交互式编码，但分享出来也许有帮助。我有 2 块 RTX Pro 6000 Blackwell 运行 DeepSeek V4 Flash。我得到 160 tok/s 的原始速度，但它是一个推理模型。对于我的用例，我让它自动编写代码，另一个系统自动审查代码。我偶尔会用它配合 pi 写一些代码，速度飞快，但让我继续使用 CC 和 Codex 的主要是习惯。 https://news.ycombinator.com/vote?id=48544202&how=up&goto=item%3Fid%3D48542100 你测量过这台机器的耗电量吗？我想知道它每月会花你多少钱。 https://news.ycombinator.com/vote?id=48544377&how=up&goto=item%3Fid%3D48542100 我的经验是，现在限制因素不是模型本身，而是那些笨拙的替代工具，它们有奇怪的缺失功能，导致在队列管理、中断、子智能体、目标等方面的人机工程学很糟糕。 https://news.ycombinator.com/vote?id=48544852&how=up&goto=item%3Fid%3D48542100 Pi 还行。我用过 Claude、Cursor 和 Pi 的 CLI 智能体，以及我自己不定期编写的一些自定义工具（如果 gastown 也算工具的话）。 Pi 就是……还行。它能做我需要的事情，开箱即用有相当不错的一组工具，与其他工具集成良好，并且通常足够不碍事，以至于我很少再想着它了。如果你能以不错的速度运行大约 30b 的模型，我想大多数人会惊喜地发现它们配合 Pi 有多么能干。再加上一些扩展（例如 https://pi.dev/packages/pi-mcp-adapter?name=mcp 和 https://pi.dev/packages/pi-web-access?name=search），我就得到了网络工具（例如 - perplexity 搜索），以及访问 MCP 来驱动 Chrome（https://browsermcp.io/）或 Firefox（https://github.com/mozilla/firefox-devtools-mcp）的能力。还行吧。它能和有补贴的顶级模型一样好吗？不能。它是免费的吗？而且仍然非常能干吗？是的。而且个人而言，我玩 pi SDK（https://pi.dev/docs/latest/sdk）玩得很开心。这是所有其他提供商都要收你 API 访问费用（例如 - 每月数千美元）的东西。 https://news.ycombinator.com/vote?id=48544436&how=up&goto=item%3Fid%3D48542100 听说过 pi.dev 好评，但还没试过。它可能能解决你提到的一些缺失功能。 https://news.ycombinator.com/vote?id=48544716&how=up&goto=item%3Fid%3D48542100 pi.dev 更像是一个智能体开发工具包。它基本上是一个底层平台，你在此基础上花费数小时/天/周来构建自己的智能体或编码框架。它就像是 Claude 的 vscode 对应的 neovim。 https://news.ycombinator.com/vote?id=48543610&how=up&goto=item%3Fid%3D48542100 我有 optane 和大量内存，所以我试过整夜运行全尺寸模型来写一些函数，速度大约是 0.7 t/s。我目前的测试基准是更新一个标量函数，用 AVX512 转置一个位矩阵。云模型们都轻松处理这个任务。Kimi 2.6 和 GLM 5.1 都惨败。 https://news.ycombinator.com/vote?id=48543919&how=up&goto=item%3Fid%3D48542100 我最近一直在想，是否可以对一个中等大小的模型，无论是在云端还是本地设置中，对每个提示都进行人类反馈强化学习（RLHF）作为一项例行工作——我不知道手动微调模型以适应你的使用习惯是否会毁了它还是帮助它——理想情况下，如果你很勤奋，你可以消除一些使面向公众的模型难以使用的毛病，例如过度谄媚、过度冗长、烦人的类比解释倾向但也许一个人的提示反馈永远都不够，我不确定需要多少（我知道在大公司工作的人买了基于内部文档等微调的内部智能体……结果这些智能体最终出现了奇怪的行为，并不一定比标准模型更有帮助）我希望能够有效地编辑智能体给出的每个回复，然后根据它生成的内容和我编辑文本的方式之间的差异进行微调。个人而言，我会删除很多形容词，并尝试将回复提炼为核心响应，但我担心基于 Owain Evans 和其他对齐研究人员的一些工作，这有时会将智能体推向难以预测的倾向。 https://news.ycombinator.com/vote?id=48544089&how=up&goto=item%3Fid%3D48542100 我有兴趣尝试类似的东西。我在考虑为我的 OpenClaw 智能体这样做。关于 Owain Evans 的工作：我认为他做的是 SFT。在 Twitter 上有人提到 RL 对他展示的内容不那么敏感。我想试试那个。 https://news.ycombinator.com/vote?id=48544094&how=up&goto=item%3Fid%3D48542100 我在服务器上使用几个模型，所以不是本地，而是用 ollama 自托管。gemma-4、glm 4.7 flash 和 qwen 3.6。glm 在智能体编程方面最好。但我仍然不认为它们中任何一个能达到 gpt 5.5 或 opus 4.8 的水平。 https://news.ycombinator.com/vote?id=48544717&how=up&goto=item%3Fid%3D48542100 我在本地试过，但发现考虑到我住的地方电费很高，隐含的盈亏平衡点大约在 1 年使用期左右。不太值得，但也许有一天我搬家了会再考虑！ https://news.ycombinator.com/vote?id=48544351&how=up&goto=item%3Fid%3D48542100 得到了类似的结果（我的 RTX 4070 只有 12 GB）。我很好奇 24/32 GB 是否能显著改善这一点，从而让……

Ask HN: 有没有人用本地模型替代 Claude/GPT 进行日常编码？

相似文章

现在运行本地模型已经很不错了

本地模型是否比预期更快变得“足够好”？

@ClementDelangue: 来自@斯坦福的一项研究显示，71.3%的ChatGPT查询可以由本地模型准确回答。我怀疑……

我能否在本地实现接近Claude/Codex的能力？

使用本地模型：Hermes 与 Claude Code 对比

提交意见反馈