追求 AI 独立之旅 (23 分钟阅读)

TLDR AI 新闻

摘要

作者分析了 GitHub Copilot 转向按用量计费的策略,认为这是为了建立用户依赖,并分享了自身转向高内存硬件进行本地 AI 推理的经验,以此降低成本并保持工作流的独立性。

本文包含一份本地 LLM 推理硬件指南。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 18:36

# @adlrocha - 在追求AI独立的路上 来源:https://adlrocha.substack.com/p/adlrocha-in-a-quest-to-becoming-ai [](https://substackcdn.com/image/fetch/$s_!mkt9!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fafdd86ad-a932-4799-8a3b-73532fdb1de6_1024x572.png) 几周前,GitHub 宣布(https://github.blog/news-insights/company-news/github-copilot-is-moving-to-usage-based-billing/)Copilot 将转为按使用量计费。不再有固定套餐,从现在起,每个人都必须为自己使用的 token 付费。 如果你一直在用免费版或个人版 Copilot*(像我一样,通过活跃开源贡献者的福利获得*),这可能会让你肉疼。这个订阅原本是绝佳的途径,可以测试每个新模型,无需绑定特定订阅,而且**月配额极其慷慨。**我知道许多人都买了 GitHub Copilot 订阅,而不是 Anthropic 的,因为它让你能用上 Sonnet 和 Opus,配额甚至比 Claude 提供的还高。**那么,一个再明显不过的问题就是,为什么它会这么便宜?** 答案肯定不是什么慷慨大方。众所周知,AI 实验室和科技巨头一直在补贴 token 成本,原因和任何平台补贴入驻一样:**在榨取价值并碾压竞争对手之前,先建立起依赖。**每一次便宜的 API 调用也是一个训练数据点。你围绕他们的服务构建的每一个工作流,都是他们替你积累的迁移成本。GitHub Copilot 每月 10 美元从来就不是一个可持续的产品,就像 Claude Code 和 Codex 这类更流行的产品大概率也是如此。所有这些 AI 订阅的每用户成本(至少对那些资金充裕、能负担得起的公司来说)都远高于他们的订阅价格。 我最忠实的读者都知道,我对 AI 经济学已经担忧了很久。在[这篇文章](https://adlrocha.substack.com/p/adlrocha-money-and-collateral-in)里,我已经阐明了自己的论点,即我认为 **“AI 泡沫更像是一个陷阱,而不是泡沫”** ,以及通过加速 AI 融入我们的日常工作流,公司们正试图制造一种他们可以利用的依赖。在去年年底意识到这一点后,我**决定开始购买能用于本地推理的硬件,**好让我逐渐减少对高昂 token 账单和那种配额不断缩减的订阅的依赖。 我的旅途从一块 Strix Halo 芯片开始,就是我现在每天使用的 Ryzen AI Max+,它给我提供了高达 128GB 的统一内存。这台机器让我可以舒适地本地运行 Qwen3.6-27B 和 Gemma 4,来处理那些 LLM 驱动的后台任务。比如邮件和日历摘要、会议纪要、TTS 等,就是那些不需要快速反馈回路或超大上下文、可以在后台持续运行的辅助与自动化工作。这让我得以**避免 AI 账单飙升,也不至于不必要地消耗掉订阅的 token 配额,这些配额我急需用来处理更复杂的智能体任务。** 虽然这套配置对于这类用例还算不错,但当你想要升级游戏,让你的智能体开始完全依赖本地模型时,它就变得相当烦人了。**核心问题在于吞吐量。**即使模型能装入内存,一旦你需要支持那些要求大上下文、紧密反馈循环的应用,比如智能体编程、[自动研究任务](https://adlrocha.substack.com/p/adlrocha-auto-research-the-lab-that)、实时工具调用,或者运行 OpenClaw 或 Hermes 智能体时,要让体验变得可容忍(至少对我来说)所需的每秒 token 数,现在还达不到。 幸运的是,这个差距是可以解决的,但如今可能要花费几千美元。因此,在花掉“几千刀”买硬件之前,我想先彻底搞清楚,到底什么样的配置能给我需要的东西。**这篇文章就是我所有发现的一个公开报告。** 但在深入硬件之前,值得回顾一下“推理”到底需要什么,因为具体硬件需求的重点,以及它们如何影响你的用户体验,可能并不是许多人直觉上以为的那样。 推理过程中主要有三种资源在起作用:**内存容量(模型是否装得下)、内存带宽(权重和缓存以多快的速度流入计算单元)以及原始算力(这些单元处理数学运算有多快)。**大多数人关注第三点,而瓶颈几乎总是第二点。 原因在此。LLM 是逐 token 自回归地生成文本的。每生成一个 token,就需要将大量模型权重从内存读入处理单元。权重本身不会改变(你是在读取,不是在训练)。这意味着,问题不在于“这块芯片能做多少 FLOPS?”,而在于“它能多快地从内存传输数据?**” 那个内存带宽才是关键的,单位是 GB/s。** 为了帮你建立直觉,我提供一些数字:RTX 3070 有 8GB 显存,内存带宽是 448 GB/s。一块更新的、同样 8GB 的 RTX 4060 Ti 只有 288 GB/s。对于推理吞吐量来说,只要模型能装得下,更老、更便宜的 3070 在推理上反而可能更快。在你明白实际衡量的是什么之前,这很反直觉。苹果很早就理解了这一点,尽管可能是在无意之中:M 系列芯片的统一内存架构,让 CPU、GPU 和神经引擎共享一个没有总线穿越的高带宽池,结果证明,对这种工作负载来说几近最优。这就是为什么带 M 芯片的苹果设备在推理上如此出色。几周前我写过关于[这个原因的](https://adlrocha.substack.com/p/adlrocha-how-the-ai-loser-may-end)文章。 你需要理解的另一个瓶颈是 KV 缓存。当模型处理一个长对话或代码上下文时,它会为见过的每个 token 的每个注意力层缓存键和值向量,这样就不必重新计算它们。这个缓存会随着上下文长度增长。在 200k token 时,启用 FlashAttention 后大约占用 2GB,还算可控。但如果不加优化,**长上下文可能会在模型权重加载之前就吃掉你大部分 VRAM。**更新的架构如 Qwen3.6 直接解决了这个问题:它的 40 层中只有 10 层使用完整的 KV 缓存,这意味着从 4k 扩展到 65k 上下文大约只增加 800MB 的 VRAM,而不是几 GB。像这样的架构决策,就是为什么“它需要多少显存?”这个问题越来越取决于你运行的是哪个模型,而不仅仅是它有多少参数。如果你想更深入地了解 Transformer 和 KV 缓存的工作原理,我在[这篇文章](https://adlrocha.substack.com/p/adlrocha-what-if-ai-doesnt-need-more)里也提供了一个简要概述,并附有外部参考资料。 这对于智能体工作具体意味着什么?相比聊天机器人,tok/s 更重要。当一个智能体在执行循环时(调用工具、解析输出、决定下一步),延迟会叠加。**在 5 tok/s 下,你在循环迭代之间要等待数秒。**在 40 tok/s 下,循环几乎是即时的。一个有用的编程智能体和一个让你放弃的智能体之间的差距,往往就这么窄。而这正是我目前配置所感受到的痛苦。我那套配置每秒大约几十个 token,我想在下一套配置中瞄准更高的目标。 我在这方面投入了很长时间,我很多想法都受到了 [0xSero](https://x.com/0xSero) 的影响,尤其是他对当前市场的详细分析以及他不断公开分享的所有实验*(如果你还没关注他而且对本地推理感兴趣,我强烈建议你马上去关注。还有 0xSero,如果你读到这篇文章,我对你的贡献以及你为开源 AI 和本地推理社区所做的一切,感激不尽。*)。下面是我根据 0xSero 的分析、基准测试以及我自己的研究,总结出的截至 2026 年中期的选择,大致限定在 **1 万美元以内,打造一台端到端的推理机器**。 在分享具体构建方案之前,这里有一个汇总表格,列出了上一节提到的关键硬件数字。提醒一下,内存容量告诉你哪些模型能装下,内存带宽告诉你它们能跑多快。下表将这些指标并排展示,让你可以对照真正重要的指标来权衡取舍。 有了这个框架,以下是每个方案的详细信息。 [](https://substackcdn.com/image/fetch/$s_!iWN3!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2fdd5e84-c825-440b-9a9c-0527d3742b32_1827x505.png) [](https://substackcdn.com/image/fetch/$s_!bFXH!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8585a3f0-7091-4b11-a642-1786c951c310_2048x1325.png)*来源:0xSero* 最干净利落的选择。**Apple Silicon 的统一内存架构**(CPU、GPU 和神经引擎共享一个高带宽内存池)结果证明对推理几乎是理想化的。没有总线穿越,没有传输开销。MLX 在过去几个月里显著成熟(正如我在[这里](https://adlrocha.substack.com/p/adlrocha-how-the-ai-loser-may-end)描述的),在类似任务上正逼近 Nvidia 3090 的吞吐量。在 400W 峰值下,整机的功耗比一块超频的 3090 还低。 最大的优势是容量:**512GB 的可用内存意味着你可以运行 Kimi-K2、Deepseek 和 Minimax-M2 的全上下文**,无需极端量化。将两台机器联网,你就拥有 1TB,而用 Nvidia 做到这点需要花费超过 5 万美元。在这个方案中,扩容非常简洁,每台额外机器都是一个独立的、拥有自己软件堆栈的自足单元,通过 Thunderbolt/Ethernet 连接。 这里的关键限制是缺乏 CUDA 支持。推理生态中大量工具,如 vLLM、SGLang 以及训练和微调堆栈,都假定有 CUDA。MLX 虽然很好且在不断进步,但其成熟度仍无法接近 CUDA。如果你还想在推理机器上做微调或训练,这可能不是最佳解决方案。但仅用于推理?它棒极了! **这是硬核玩家的选项,也是需要最多装配工作的。**不存在预构建的版本;你得用零件装一台工作站。购物清单大致如下:一块至少有 8 个 PCIe 插槽的服务器级主板(如 Gigabyte MZ32-AR0 或 Supermicro 等效产品,800–1200 美元),一个服务器机箱或开放式矿机架(200–400 美元),一块 2000W+ 电源或双电源配置(400–600 美元),用于 MoE 卸载的 256GB DDR5 系统内存(400 美元),以及大约 8 块 RTX 3090,每块二手约 800–1000 美元。总计:如果精挑细选,9000–12000 美元,如果不然则更多*(这总是我的情况 :) )*。你得花上一个周末时间。然后再花一个周末处理 NVLink 桥和驱动配置。 作为交换,你能得到什么?**192GB 的 VRAM,聚合带宽 936 GB/s,这是本列表中对密集模型能达到的最快吞吐量。**完整的 CUDA 支持意味着 vLLM、SGLang 以及生态系统所产出的一切工具。一个成熟的生态系统,以及一台你也可以在上面训练和微调的机器。 这套配置的主要缺点在于,即使在 50% 功率限制下全速运行,系统功耗也达到 1500W。它会非常吵。二手 3090 市场正在收紧。将规模扩展到 8 卡以上需要一个电工和第二套系统。你得更把它看成一个接近数据中心级别的工作站,而不是一台安静的办公室机器。 如果你喜欢硬件并且喜欢自己动手装机,这是一个非常有趣的项目。但要是你没时间,就算每 GB VRAM 的经济性合算,这台机器对你来说可能还是不合适。 这就是我那台 Beelink 机器里的芯片。Framework 出售带 128GB 内存的桌面配置,起价大约 3000 美元,能以 128GB 增量扩展至 384GB,和我的非常相似。我的包含 128GB,你可以购买配置好的,到手即用,无需装配或繁重工作。功耗适中,安静,内存通过更换内存条而非加显卡扩充。过去六个月里我让它不间断运行,电费账单上毫无波动。 同一块芯片,Strix Halo,正如 [0xSero](https://x.com/0xSero/status/2050597485857345941) 所描述的,其在 **“每 GB 内存成本”上相较于 Nvidia 有着“荒谬的”优势。**128GB 就超越了 4 块 3090 的能力,价格和麻烦都只有它们的一半或十分之一。Simon Couch 有一篇[很好的文章](https://simonpcouch.com/blog/2026-04-16-local-agents-2/),展示了此类机器的日常本地智能体工作流是怎样的。其内存架构在原理上与苹果所做的类似:统一池,高带宽,无总线损耗,这正是尽管有软件摩擦,它在推理上依然具有竞争力的原因。 症结所在:ROCm 而非 CUDA。AMD 的软件堆栈已有显著提升,但仍然需要比基于 CUDA 的工作流更多的配置,而且有些工具根本不支持它。我个人就在 Strix Halo 的 ROCm 对我所运行的某内核版本的支持上遇到过问题,**这迫使我改为用 Vulkan 运行模型。**性能下降微乎其微,但比起 CUDA 的支持,你还是得多费些周折。 供应也不稳定,Framework 的配置经常售罄,等待时间长达数周。水平扩展(多台机器联网)是可能的,但比在 PCIe 插槽上加块显卡需要更多工作,当然你总可以将它们连接起来。 这个选项适合那些想从小开始并平滑扩展、无需重建的人。一块 RTX 6000 Blackwell 是一块 PCIe 卡,可以插入任何带 x16 插槽的工作站主板,这意味着机器的其余部分(CPU、内存、机箱)可以是 500–800 美元的中等消费级硬件。一块卡大约 7000–10000 美元,提供 96GB VRAM,带宽约 1700 GB/s,单卡带宽比整个 8× 3090 构建的总和还快。两块卡可将 VRAM 翻倍至 192GB,功耗仅为 8 块 3090 的一半。你可以在家庭电路上插到 8 块卡,最终达到 768GB VRAM,这是家用电源的实际上限。 **每 GB 成本是本列表中最高的。但你买下的是一个 5 年的升级路径。**每年加一块卡,其余一切保持不变。无需新机箱,无需新电源配置,无需重建堆栈。对于那些想逐步扩展推理集群的人来说,这是最连贯的架构(尽管入门费用相当昂贵)。 不可预知的选择。1 万美元能买到 480GB VRAM,这个数字在本列表中几乎无人能及。现在已经有了 vLLM 支持,这极大地改变了可用性图景。每卡 400 GB/s 的带宽虽不是最快的,限制了密集模型的 tok/s,但对于以较低吞吐需求运行超大规模模型而言,在每 GB 成本上很难被击败。 更大的问题是生态系统:调试意味着要翻译中文论坛,GitHub 上的 issue 数月无人回复,而且对于美国买家而言,进口情况可能会很复杂。 值得了解。大概不会是你的第一台机器。 由 tinygrad 团队推出的 [tinybox](https://tinygrad.org/#tinybox) 是你今天能买到的最接近即插即用的推理机器,预组装,预配置,它运行 Ubuntu 24.04,并预装了 tinygrad 软件堆栈。 tinybox red v2 是 AMD 的选项,也是符合现实家庭推理预算的选择。**四块 AMD Radeon RX 9070 XT 显卡,64GB 总 GPU 内存,2560 GB/s 聚合带宽,一个 32 核 EPYC**

相似文章

AI agents 正在改变人们对计算成本的看法

Reddit r/AI_Agents

本文讨论了AI代理工作流如何将优化重心从单纯的推理成本转向更广泛的挑战,如延迟、编排开销和可靠性。文章强调了向混合架构和动态模型路由发展的趋势,以应对这些多步骤工作流的复杂性。

推理的变革(阅读时长约 8 分钟)

TLDR AI

本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。

AI推理遵循着截然不同的规则(9分钟阅读)

TLDR AI

文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。