@RayFernando1337: https://x.com/RayFernando1337/status/2070621713952579990

X AI KOLs Following 新闻

摘要

关于是在本地运行AI模型还是通过API运行的详细分析,涵盖了RTX 5090、RTX PRO 6000和DGX Spark等硬件选项,重点讨论了内存与带宽的权衡、成本考虑以及隐私需求。

https://t.co/cERPZB3ydZ
查看原文
查看缓存全文

缓存时间: 2026/06/26 22:16

本地部署值得现在投入吗?

💡快速结论(既然你大概率直接滑到这里): 对大多数人来说,现阶段请通过API租用,然后等待。

硬件刚变得更贵,背后的内存价格飙升可能降温,而且真正值得关注的模型根本无法塞进一台单机。

只有当你是以下情况时,才考虑本地部署:

  • 你的数据确实无法离开本地硬件
  • 你每天持续运行数小时的重负载任务
  • 你真心想要类似Mac集群那样的低功耗与静音
  • 你喜欢捣鼓硬件并想学习

如果是你,继续往下读,我会精确告诉你属于哪个层级。如果不是,你刚刚省下了几千块。不用谢。

这个问题之所以突然火爆,是因为本月发生了两件事:政府因出口管制收紧了几个前沿模型,以及苹果突然上调硬件价格。这两件事让许多人急于拥有自己的设备。

从这开始:四个问题帮你定位

在讨论任何具体硬件之前,先回答这四个问题,它们比任何规格表都能更快帮你归类。

  • 你需要加载大模型,还是快速运行它们? 这是两件不同的事,人们经常混淆。统一内存(比如DGX Spark或顶配MacBook上的128GB)擅长加载大模型,让模型装得下。内存带宽才是真正决定加载后每秒生成token数量的因素。如果你内存大但带宽低,模型虽然能装下,但运行很慢——很多人对此感到意外。

  • 你在做智能体任务吗?不介意它们花更长时间? 如果你在后台运行智能体,让它们慢慢处理任务,那么较慢的每秒token数量就无关紧要。但如果你需要每次快速交互响应,带宽就成了关键。

  • 成本真的是考虑因素吗? 诚实地评估你的实际用量。一旦你把显卡价格、运行机器的耗电以及维护时间都算进去,就会发现对于大多数人实际使用的量来说,API其实比预想中便宜。

  • 你有隐私需求吗? 是否有数据确实不能离开你的硬件?比如受监管的客户数据,或你签署了相关协议。这是少数几个能单独翻转整个决策的因素。

回答完这四个问题,你基本就知道自己属于哪个层级了。剩下的只是补充细节。

决策树

人们常搞错的硬件现实

这是我最初研究时也感到意外的一点……

RTX 5090和RTX PRO 6000 Blackwell是同一个核心,内存带宽相同。 它们都基于相同的Blackwell芯片,内存带宽都在约1,792 GB/s。唯一的真正区别是显存容量:5090是32GB,PRO 6000是96GB。所以如果你想运行的模型能塞进32GB,更便宜的卡同样能给你相同速度。贵的卡不是买更多每秒token,而是买空间去运行更大的模型,且保持速度。

另一个我常被问到的问题是DGX Spark和RTX PRO 6000的区别,答案在于内存带宽和统一内存。DGX Spark有128GB统一内存,非常适合装下大模型;但其带宽约273 GB/s,偏低,意味着每秒token生成较慢。PRO 6000只有96GB内存,但带宽约1,792 GB/s,所以能装下的模型运行速度会快得多。一台机器为装大模型而设计,另一台为高速运行而设计,你要清楚自己实际面临的是哪个问题。

没人算进去的时机问题

我正经历极度的错失恐惧症,而且我认为这部分对那些急于本周购买的人来说最重要。

苹果提价不是因为它想提,而是因为内存芯片短缺——而短缺的推手正是所有人都在建设AI数据中心、抢购内存。DRAM价格在今年第一季度飙升了98%,本季度预计再涨58%至63%,自2025年底以来已上涨超过四倍。苹果CEO自己称之为“百年一遇的洪水”,并称涨价不可避免。

而受冲击最大的机器,恰恰是那些你会买来用于本地AI的……你看,它们用于AI的优势就在于大内存,而内存正是稀缺资源。M3 Ultra Mac Studio涨了1300美元(约33%),M5 Max MacBook Pro和M4 Max Mac Studio各涨500美元,而iPhone完全没动。

所以稍微体会一下这其中的讽刺:数据中心热潮哄抬了消费级硬件价格,而人们想买的正是这种硬件,以摆脱对数据中心的依赖。错失恐惧症告诉你现在不买会更糟,但现在的价格正处于苹果自己也暗示可能回落的内存价格峰值。在价格最高点买入贬值资产,因为你害怕错过——这种事过后回想起来会后悔的。我可能完全错了,但……只是不想被现在的X(指社交平台)炒作冲昏头脑。

没人提到的陷阱

假设你已经下手花了钱……结果会怎样?

  • 快卡和慢卡混用不会像你想的那样叠加效果。 如果你把5090和老的4090或3090插在一起,跨卡拆分一个模型,那么这些卡必须通过PCIe总线通信,而PCIe是你整个系统中最慢的链路。较慢的卡会成为瓶颈,限制它所在层所对应的每秒token数。你得不到5090速度加上4090速度的结果,更接近的是弱卡的速度加上数据来回调度的开销。大多数人以为两张强力卡能协同工作,速度相加,但实际并非如此。

  • 两块PRO 6000也不是即插即用,这一点很棘手。 PRO 6000没有NVLink,所以两块卡同样通过PCIe通信,其带宽只有真正NVLink连接的一小部分。跨两张卡拆分一个模型(张量并行)需要极大的互联带宽,因为每层都要同步,而PCIe会成为瓶颈。更麻烦的是,流行服务软件中的优化全归约内核还不支持这些卡Blackwell的计算能力,所以你必须禁用它,退回到更保守的路径。有人报告称花了数周时间处理死锁,从源码构建推理栈(因为预编译镜像不支持Blackwell),调整底层驱动和PCIe设置,才能稳定运行双卡推理。流水线并行在PCIe上效果更好,但它主要帮你同时服务更多用户,而不是让单个请求更快。

所以……这就是决策树悄悄带你走向悬崖的地方。一旦你真正需要快速的多GPU方案,你就得考虑带真正NVLink的H100、H200或B200类显卡——那是数据中心级硬件和数据中心级价格。“我就买两张卡连起来”就变成了“看来我需要一个数据中心”……这时候大多数人应该停下来问问自己,一开始是否真的需要这一切。

低、中、高、极限

以下是我能给出的最有用的分类。找到与你当前硬件匹配的层级,看看你能实际运行什么,然后看看下一步升级需要多少成本,再做决定。

低:单张消费级显卡(24-32GB)、M系列Mac、或统一内存迷你PC。

  • 这大概就是你现有的设备,但它能覆盖很多实际工作。
  • 你可以很好地运行小型混合专家模型和密集模型,比如Qwen3.6(27B或35B-A3B,仅3B激活)、Gemma系列模型、较小的GLM变体,全部量化且快速。
  • 对本地编程助手和在自有机器上运行智能体来说完全够用。如果超出这个范围,下一步要么是更高内存带宽,要么是更大VRAM,而不是加更多机器。

中:一张RTX PRO 6000 Blackwell(96GB)。

  • 如果你确实需要更大规模,这是最佳平衡点。
  • 你可以在单卡上以FP8运行70B密集模型,或80B级混合专家模型,速度快,并且有足够空间处理智能体工作中的真实并发。
  • 这是我选定的配置,它仍然是单机最佳答案。问题在于,这个层级也是你必须决定是否继续往上爬的节点——因为再往上一步,成本会急剧上升。

高:统一内存主机,或小型Apple Silicon集群,用于大型混合专家模型。

  • 这里你接受较慢的每秒token生成,以换取能够容纳大模型,比如以4位量化运行671B参数、37B激活参数的模型。
  • 单台128GB主机(DGX Spark或Strix Halo)在容量上可以满足,但带宽低;Apple集群是更有趣的变体,我会在专门章节细说,因为它值得。

极限:实际的前沿开放模型。

  • 现在大家都在谈论的模型:GLM-5.2(744B)、MiniMax M3、Kimi K2.7(万亿参数)、DeepSeek V4(1.6T)——这些在消费级单机上即使量化也无法实用。
  • 要在本地运行它们,你需要多卡H100、H200或B200系统并配NVLink——说实话,到这一步,API就在那里,而且很便宜。
  • GLM-5.2每百万输入/输出token约1.40/4.40美元,MiniMax M3约0.30/1.20美元——在你让硬件回本之前,你可以用这些钱跑很多很多token。

Apple Silicon集群选项(先别急着叫它数据中心)

这部分写给关心功耗和静音的读者。因为现在确实有人在这样用,它正好位于数据中心之下的一个甜蜜点。

每颗M5 Max芯片拥有最高614 GB/s内存带宽和128GB统一内存——这个带宽是DGX Spark或Strix Halo主机的两倍多,所以每个节点在解码上确实快。新变化是macOS 26.2增加了通过Thunderbolt 5的RDMA功能,可以直接将数据从一台机器的内存传输到另一台,绕过大部分操作系统开销。而本月WWDC上,苹果在此基础上推出了分布式栈(JACCL和MLX分布式),让你可以将大约四台Mac连成一个网状网络,跨所有机器运行一个模型。虽然听起来像研究预览……但它确实发布了!!

所以你可以串联四台M5 Max MacBook(每台128GB),获得约512GB共享内存,运行超过400B的混合专家模型,甚至万亿参数模型。苹果自己的演示用四台M3 Ultra以28 tokens/s运行了万亿参数的Kimi模型。社区里已经有人在桌面上用三台M5 Max笔记本运行397B模型。相比一排GPU,整个系统功耗极低,安静,且能放在桌上。

诚实的权衡在于两点。机器之间的互联是Thunderbolt 5,实测约7.5 GB/s——这是你的瓶颈,所以比真正的GPU慢。对于大型模型,你大概能得到14-28 tokens/s,而单张H100在同样模型上可能达到71 tokens/s。而且它不便宜:四台M5 Max MacBook每台约4,099美元,总共超过16,000美元——而且这价格刚涨过。但如果你追求容量、静音和低功耗,并且不介意中等速度,这是一个介于单机和数据中心之间的合法路径,有些人确实更喜欢它。

关于“现在买,祈祷以后能跑前沿模型”的赌注

很多人现在购买硬件,寄希望于18个月后一个像Opus 4.8或Fable一样好的模型会缩小到能在他们的笔记本上运行。这个趋势确实存在——我想公平地指出这一点——因为小模型确实一直在追赶过去一年的大模型。

但……有个陷阱。能塞进笔记本的模型都要重度量化,而量化是有代价的。研究一致表明8位基本上无损,4位在简单任务上表现还行,但在困难任务上开始下降——困难任务的性能下降幅度是简单任务的四倍。长上下文任务受影响最严重:4位模型在长输入上性能下降高达59%,且随上下文增加而恶化。而小模型比大模型更扛不住量化。长上下文、推理密集型、智能体工作——这正是你一开始想要前沿模型的原因。(截至2026年6月的情况……)

所以,即使18个月后有一个像今天Opus一样好的模型从技术上能塞进你的笔记本,装进去的也是量化版,在最重要的任务上明显更弱。而且那时的真正前沿模型早就又进步了。现在购买并祈祷,实际上是同时押注三件事:模型会缩小到适合你的硬件;它在你的特定任务上能扛住量化;你的硬件对未来的工作负载形态仍然合适。对于一块开箱就贬值的硬件来说,这赌注太大了。

所以,值得吗?现在该做吗?

我说这些,是因为我自己也走过了这条路——我桌上有一台DGX Spark,我配置了一台完整的RTX PRO 6000工作站,还在Micro Center退回了一套8,000美元的配置(甚至都没取货)。

对大多数人来说,诚实的答案是:本地部署完全可以值得,但现在是动手的糟糕时机。

一旦你把显卡价格、电费和你自己的时间都算进去,API是最省钱的选择。而雪上加霜的是,硬件变得更贵、更难买,导致涨价的这波内存飙升可能在未来一年内缓解。真正值得本地部署的情况是:你有隐私需求;你持续运行高负载任务;你特别想要Mac集群那样的能效与静音;或者显卡是别人买单。除此之外,等待并不等于损失

关于“可控”这个角度的讽刺,和我们开头说的是一样的:那些真正值得担心会被管制的前沿模型,本地硬件根本跑不动,所以拥有一台本地机器并不能帮你解决让你害怕的问题。它买来的是隐私和稳态成本控制。

现在该做什么

先在API上做原型,找到你的真实用例,测量你实际消耗的token数量,然后用真实数据而非感觉来做硬件决策。这个顺序很重要——因为几乎每个先买硬件的人,最终都发现买来的机器与后续真正的工作负载不匹配。如果可以,等内存价格降温后再买——因为现在你正处在价格飙升的顶点。

利用等待的时间学习那些无论何种硬件都能适用的技能:熟悉如何用量化工具和vLLM、SGLang或MLX等框架来提供模型服务;真正理解内存容量和内存带宽的区别;学习如何设计对成本有意识的智能体工作负载。这些技能能让你在有真实需求时立刻做出明智决定,而且它们不像显卡那样——你打开包装就开始贬值。

这里的诚实答案就是耐心。大多数人应该继续付API费用,继续构建,让硬件和价格回归。

相似文章