追求 AI 独立之旅 (23 分钟阅读)

TLDR AI 2026/05/11 00:00 新闻

摘要

作者分析了 GitHub Copilot 转向按用量计费的策略，认为这是为了建立用户依赖，并分享了自身转向高内存硬件进行本地 AI 推理的经验，以此降低成本并保持工作流的独立性。

本文包含一份本地 LLM 推理硬件指南。

查看缓存全文

缓存时间: 2026/05/11 18:36

# @adlrocha - 在追求AI独立的路上来源：https://adlrocha.substack.com/p/adlrocha-in-a-quest-to-becoming-ai [](https://substackcdn.com/image/fetch/$s_!mkt9!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fafdd86ad-a932-4799-8a3b-73532fdb1de6_1024x572.png) 几周前，GitHub 宣布（https://github.blog/news-insights/company-news/github-copilot-is-moving-to-usage-based-billing/）Copilot 将转为按使用量计费。不再有固定套餐，从现在起，每个人都必须为自己使用的 token 付费。如果你一直在用免费版或个人版 Copilot*（像我一样，通过活跃开源贡献者的福利获得*），这可能会让你肉疼。这个订阅原本是绝佳的途径，可以测试每个新模型，无需绑定特定订阅，而且**月配额极其慷慨。**我知道许多人都买了 GitHub Copilot 订阅，而不是 Anthropic 的，因为它让你能用上 Sonnet 和 Opus，配额甚至比 Claude 提供的还高。**那么，一个再明显不过的问题就是，为什么它会这么便宜？** 答案肯定不是什么慷慨大方。众所周知，AI 实验室和科技巨头一直在补贴 token 成本，原因和任何平台补贴入驻一样：**在榨取价值并碾压竞争对手之前，先建立起依赖。**每一次便宜的 API 调用也是一个训练数据点。你围绕他们的服务构建的每一个工作流，都是他们替你积累的迁移成本。GitHub Copilot 每月 10 美元从来就不是一个可持续的产品，就像 Claude Code 和 Codex 这类更流行的产品大概率也是如此。所有这些 AI 订阅的每用户成本（至少对那些资金充裕、能负担得起的公司来说）都远高于他们的订阅价格。我最忠实的读者都知道，我对 AI 经济学已经担忧了很久。在[这篇文章](https://adlrocha.substack.com/p/adlrocha-money-and-collateral-in)里，我已经阐明了自己的论点，即我认为 **“AI 泡沫更像是一个陷阱，而不是泡沫”** ，以及通过加速 AI 融入我们的日常工作流，公司们正试图制造一种他们可以利用的依赖。在去年年底意识到这一点后，我**决定开始购买能用于本地推理的硬件，**好让我逐渐减少对高昂 token 账单和那种配额不断缩减的订阅的依赖。我的旅途从一块 Strix Halo 芯片开始，就是我现在每天使用的 Ryzen AI Max+，它给我提供了高达 128GB 的统一内存。这台机器让我可以舒适地本地运行 Qwen3.6-27B 和 Gemma 4，来处理那些 LLM 驱动的后台任务。比如邮件和日历摘要、会议纪要、TTS 等，就是那些不需要快速反馈回路或超大上下文、可以在后台持续运行的辅助与自动化工作。这让我得以**避免 AI 账单飙升，也不至于不必要地消耗掉订阅的 token 配额，这些配额我急需用来处理更复杂的智能体任务。** 虽然这套配置对于这类用例还算不错，但当你想要升级游戏，让你的智能体开始完全依赖本地模型时，它就变得相当烦人了。**核心问题在于吞吐量。**即使模型能装入内存，一旦你需要支持那些要求大上下文、紧密反馈循环的应用，比如智能体编程、[自动研究任务](https://adlrocha.substack.com/p/adlrocha-auto-research-the-lab-that)、实时工具调用，或者运行 OpenClaw 或 Hermes 智能体时，要让体验变得可容忍（至少对我来说）所需的每秒 token 数，现在还达不到。幸运的是，这个差距是可以解决的，但如今可能要花费几千美元。因此，在花掉“几千刀”买硬件之前，我想先彻底搞清楚，到底什么样的配置能给我需要的东西。**这篇文章就是我所有发现的一个公开报告。** 但在深入硬件之前，值得回顾一下“推理”到底需要什么，因为具体硬件需求的重点，以及它们如何影响你的用户体验，可能并不是许多人直觉上以为的那样。推理过程中主要有三种资源在起作用：**内存容量（模型是否装得下）、内存带宽（权重和缓存以多快的速度流入计算单元）以及原始算力（这些单元处理数学运算有多快）。**大多数人关注第三点，而瓶颈几乎总是第二点。原因在此。LLM 是逐 token 自回归地生成文本的。每生成一个 token，就需要将大量模型权重从内存读入处理单元。权重本身不会改变（你是在读取，不是在训练）。这意味着，问题不在于“这块芯片能做多少 FLOPS？”，而在于“它能多快地从内存传输数据？**” 那个内存带宽才是关键的，单位是 GB/s。** 为了帮你建立直觉，我提供一些数字：RTX 3070 有 8GB 显存，内存带宽是 448 GB/s。一块更新的、同样 8GB 的 RTX 4060 Ti 只有 288 GB/s。对于推理吞吐量来说，只要模型能装得下，更老、更便宜的 3070 在推理上反而可能更快。在你明白实际衡量的是什么之前，这很反直觉。苹果很早就理解了这一点，尽管可能是在无意之中：M 系列芯片的统一内存架构，让 CPU、GPU 和神经引擎共享一个没有总线穿越的高带宽池，结果证明，对这种工作负载来说几近最优。这就是为什么带 M 芯片的苹果设备在推理上如此出色。几周前我写过关于[这个原因的](https://adlrocha.substack.com/p/adlrocha-how-the-ai-loser-may-end)文章。你需要理解的另一个瓶颈是 KV 缓存。当模型处理一个长对话或代码上下文时，它会为见过的每个 token 的每个注意力层缓存键和值向量，这样就不必重新计算它们。这个缓存会随着上下文长度增长。在 200k token 时，启用 FlashAttention 后大约占用 2GB，还算可控。但如果不加优化，**长上下文可能会在模型权重加载之前就吃掉你大部分 VRAM。**更新的架构如 Qwen3.6 直接解决了这个问题：它的 40 层中只有 10 层使用完整的 KV 缓存，这意味着从 4k 扩展到 65k 上下文大约只增加 800MB 的 VRAM，而不是几 GB。像这样的架构决策，就是为什么“它需要多少显存？”这个问题越来越取决于你运行的是哪个模型，而不仅仅是它有多少参数。如果你想更深入地了解 Transformer 和 KV 缓存的工作原理，我在[这篇文章](https://adlrocha.substack.com/p/adlrocha-what-if-ai-doesnt-need-more)里也提供了一个简要概述，并附有外部参考资料。这对于智能体工作具体意味着什么？相比聊天机器人，tok/s 更重要。当一个智能体在执行循环时（调用工具、解析输出、决定下一步），延迟会叠加。**在 5 tok/s 下，你在循环迭代之间要等待数秒。**在 40 tok/s 下，循环几乎是即时的。一个有用的编程智能体和一个让你放弃的智能体之间的差距，往往就这么窄。而这正是我目前配置所感受到的痛苦。我那套配置每秒大约几十个 token，我想在下一套配置中瞄准更高的目标。我在这方面投入了很长时间，我很多想法都受到了 [0xSero](https://x.com/0xSero) 的影响，尤其是他对当前市场的详细分析以及他不断公开分享的所有实验*（如果你还没关注他而且对本地推理感兴趣，我强烈建议你马上去关注。还有 0xSero，如果你读到这篇文章，我对你的贡献以及你为开源 AI 和本地推理社区所做的一切，感激不尽。*）。下面是我根据 0xSero 的分析、基准测试以及我自己的研究，总结出的截至 2026 年中期的选择，大致限定在 **1 万美元以内，打造一台端到端的推理机器**。在分享具体构建方案之前，这里有一个汇总表格，列出了上一节提到的关键硬件数字。提醒一下，内存容量告诉你哪些模型能装下，内存带宽告诉你它们能跑多快。下表将这些指标并排展示，让你可以对照真正重要的指标来权衡取舍。有了这个框架，以下是每个方案的详细信息。 [](https://substackcdn.com/image/fetch/$s_!iWN3!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2fdd5e84-c825-440b-9a9c-0527d3742b32_1827x505.png) [](https://substackcdn.com/image/fetch/$s_!bFXH!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8585a3f0-7091-4b11-a642-1786c951c310_2048x1325.png)*来源：0xSero* 最干净利落的选择。**Apple Silicon 的统一内存架构**（CPU、GPU 和神经引擎共享一个高带宽内存池）结果证明对推理几乎是理想化的。没有总线穿越，没有传输开销。MLX 在过去几个月里显著成熟（正如我在[这里](https://adlrocha.substack.com/p/adlrocha-how-the-ai-loser-may-end)描述的），在类似任务上正逼近 Nvidia 3090 的吞吐量。在 400W 峰值下，整机的功耗比一块超频的 3090 还低。最大的优势是容量：**512GB 的可用内存意味着你可以运行 Kimi-K2、Deepseek 和 Minimax-M2 的全上下文**，无需极端量化。将两台机器联网，你就拥有 1TB，而用 Nvidia 做到这点需要花费超过 5 万美元。在这个方案中，扩容非常简洁，每台额外机器都是一个独立的、拥有自己软件堆栈的自足单元，通过 Thunderbolt/Ethernet 连接。这里的关键限制是缺乏 CUDA 支持。推理生态中大量工具，如 vLLM、SGLang 以及训练和微调堆栈，都假定有 CUDA。MLX 虽然很好且在不断进步，但其成熟度仍无法接近 CUDA。如果你还想在推理机器上做微调或训练，这可能不是最佳解决方案。但仅用于推理？它棒极了！ **这是硬核玩家的选项，也是需要最多装配工作的。**不存在预构建的版本；你得用零件装一台工作站。购物清单大致如下：一块至少有 8 个 PCIe 插槽的服务器级主板（如 Gigabyte MZ32-AR0 或 Supermicro 等效产品，800–1200 美元），一个服务器机箱或开放式矿机架（200–400 美元），一块 2000W+ 电源或双电源配置（400–600 美元），用于 MoE 卸载的 256GB DDR5 系统内存（400 美元），以及大约 8 块 RTX 3090，每块二手约 800–1000 美元。总计：如果精挑细选，9000–12000 美元，如果不然则更多*（这总是我的情况 :) ）*。你得花上一个周末时间。然后再花一个周末处理 NVLink 桥和驱动配置。作为交换，你能得到什么？**192GB 的 VRAM，聚合带宽 936 GB/s，这是本列表中对密集模型能达到的最快吞吐量。**完整的 CUDA 支持意味着 vLLM、SGLang 以及生态系统所产出的一切工具。一个成熟的生态系统，以及一台你也可以在上面训练和微调的机器。这套配置的主要缺点在于，即使在 50% 功率限制下全速运行，系统功耗也达到 1500W。它会非常吵。二手 3090 市场正在收紧。将规模扩展到 8 卡以上需要一个电工和第二套系统。你得更把它看成一个接近数据中心级别的工作站，而不是一台安静的办公室机器。如果你喜欢硬件并且喜欢自己动手装机，这是一个非常有趣的项目。但要是你没时间，就算每 GB VRAM 的经济性合算，这台机器对你来说可能还是不合适。这就是我那台 Beelink 机器里的芯片。Framework 出售带 128GB 内存的桌面配置，起价大约 3000 美元，能以 128GB 增量扩展至 384GB，和我的非常相似。我的包含 128GB，你可以购买配置好的，到手即用，无需装配或繁重工作。功耗适中，安静，内存通过更换内存条而非加显卡扩充。过去六个月里我让它不间断运行，电费账单上毫无波动。同一块芯片，Strix Halo，正如 [0xSero](https://x.com/0xSero/status/2050597485857345941) 所描述的，其在 **“每 GB 内存成本”上相较于 Nvidia 有着“荒谬的”优势。**128GB 就超越了 4 块 3090 的能力，价格和麻烦都只有它们的一半或十分之一。Simon Couch 有一篇[很好的文章](https://simonpcouch.com/blog/2026-04-16-local-agents-2/)，展示了此类机器的日常本地智能体工作流是怎样的。其内存架构在原理上与苹果所做的类似：统一池，高带宽，无总线损耗，这正是尽管有软件摩擦，它在推理上依然具有竞争力的原因。症结所在：ROCm 而非 CUDA。AMD 的软件堆栈已有显著提升，但仍然需要比基于 CUDA 的工作流更多的配置，而且有些工具根本不支持它。我个人就在 Strix Halo 的 ROCm 对我所运行的某内核版本的支持上遇到过问题，**这迫使我改为用 Vulkan 运行模型。**性能下降微乎其微，但比起 CUDA 的支持，你还是得多费些周折。供应也不稳定，Framework 的配置经常售罄，等待时间长达数周。水平扩展（多台机器联网）是可能的，但比在 PCIe 插槽上加块显卡需要更多工作，当然你总可以将它们连接起来。这个选项适合那些想从小开始并平滑扩展、无需重建的人。一块 RTX 6000 Blackwell 是一块 PCIe 卡，可以插入任何带 x16 插槽的工作站主板，这意味着机器的其余部分（CPU、内存、机箱）可以是 500–800 美元的中等消费级硬件。一块卡大约 7000–10000 美元，提供 96GB VRAM，带宽约 1700 GB/s，单卡带宽比整个 8× 3090 构建的总和还快。两块卡可将 VRAM 翻倍至 192GB，功耗仅为 8 块 3090 的一半。你可以在家庭电路上插到 8 块卡，最终达到 768GB VRAM，这是家用电源的实际上限。 **每 GB 成本是本列表中最高的。但你买下的是一个 5 年的升级路径。**每年加一块卡，其余一切保持不变。无需新机箱，无需新电源配置，无需重建堆栈。对于那些想逐步扩展推理集群的人来说，这是最连贯的架构（尽管入门费用相当昂贵）。不可预知的选择。1 万美元能买到 480GB VRAM，这个数字在本列表中几乎无人能及。现在已经有了 vLLM 支持，这极大地改变了可用性图景。每卡 400 GB/s 的带宽虽不是最快的，限制了密集模型的 tok/s，但对于以较低吞吐需求运行超大规模模型而言，在每 GB 成本上很难被击败。更大的问题是生态系统：调试意味着要翻译中文论坛，GitHub 上的 issue 数月无人回复，而且对于美国买家而言，进口情况可能会很复杂。值得了解。大概不会是你的第一台机器。由 tinygrad 团队推出的 [tinybox](https://tinygrad.org/#tinybox) 是你今天能买到的最接近即插即用的推理机器，预组装，预配置，它运行 Ubuntu 24.04，并预装了 tinygrad 软件堆栈。 tinybox red v2 是 AMD 的选项，也是符合现实家庭推理预算的选择。**四块 AMD Radeon RX 9070 XT 显卡，64GB 总 GPU 内存，2560 GB/s 聚合带宽，一个 32 核 EPYC**

追求 AI 独立之旅 (23 分钟阅读)

相似文章

AI agents 正在改变人们对计算成本的看法

@DeRonin_：发现这些 GitHub 仓库后，每月在付费 AI 工具上省下 855 美元的生活

每个AI计划都在四月崩盘的背后（18分钟阅读）

推理的变革（阅读时长约 8 分钟）

AI推理遵循着截然不同的规则（9分钟阅读）

提交意见反馈