@barrowjoseph: https://x.com/barrowjoseph/status/2056417511826989310
摘要
一位研究生分享了他们使用单个美国墙壁插座运行4块3090 Ti显卡搭建多GPU工作站的经验,详细介绍了限制、功耗挑战以及组件选择。
查看缓存全文
缓存时间: 2026/05/19 14:47
打造一台单插座、四GPU工作站
TL; DR 作为一名研究生,我最渴望的就是一台GPU工作站。如今作为有稳定收入的成年人,我终于能实现这个愿望了。
过去几个月,我零敲碎打地组装了一台多GPU工作站,确保它能依靠美国家用标准墙壁插座供电。这台机器让我能够在CommonForms数据集上训练一些DETR模型、一个13亿参数的VLM,并为LOCUS-v1数据集OCR了首批一百万页法律文本。
整台机器的建造约束如下:
-
必须能靠一个标准美国家用插座运行——15A,120V;这条没得商量,我租的房子没法改电路,也没法新加大功率电路;
-
不能成为烦扰;我不是独居,所以不能太吵或太热;
-
预算必须合理;大家对于“合理”的定义可能不同,我后面会详细列出成本。如果只考虑前两条约束,我本可以用6万美元造出更猛的机器,但那超出了我对“合理”的定义;
-
应具备足够的VRAM和速度,以便舒适地进行SFT和RL训练优秀的视觉语言模型;毕竟这才是做这件事的根本目的。
附注:你也可以在这里看到格式完美的版本:https://jbarrow.ai/2026-05-18-gpu-workstation/
我的工作主力机。目前是一台4x3090Ti的机器。用它我每天能OCR大约25万页,并以相当不错的batch size对Qwen-3 VL 2B进行完整微调。
我的工作主力机。目前是一台4x3090Ti的机器。用它我每天能OCR大约25万页,并以相当不错的batch size对Qwen-3 VL 2B进行完整微调。
计划
我的计划很简单:买一块有足够多PCIe x16插槽的服务器主板,一颗有足够多PCIe通道的CPU,尽可能多地插上便宜的DDR4内存,再搞一堆便宜SSD。然后把GPU功耗限制在一个合理范围内,就可以开开心心地跑实验了。
被现实打脸
每个人都有自己的计划,直到被现实打脸。
- 迈克·泰森
不幸的是,迈克·泰森说得对。在尝试组装工作站时,我被迫更改了好几次计划。
全球算力吃紧
如果你对过去一年电脑配件的价格有所了解,你就知道那个计划后来怎么样了。内存价格翻了五倍,SSD翻了三倍,二手GPU价格飞涨。
购买二手便宜的服务器配件已经不可能了。需要花更多时间和耐心才能找到价格合适的零件,在eBay、r/homelabsales和r/hardwareswap上反复淘。判断一个零件的好价格变得非常困难,我只好用“秘书问题”的思路来思考价格:根据最近的成交价和我愿意支付的最高上限,这个价格合理吗?
冒险使用二手零件
这台机器里几乎每个零件都是二手的,除了第一块3090 Ti。二手零件有独特风险:这块硬盘是不是快挂了?GPU能用吗?整个账号是不是骗子?
我算比较幸运,不过有一次我下单了3090 Ti,收到的却是3090。卖家回复很及时,最后退了款。但风险就是这游戏的一部分。
我收到的是3090,而不是我订购的3090 Ti。
我收到的是3090,而不是我订购的3090 Ti。
限电并不像看起来那么简单
如果想靠一个插座运行,限电是你的好朋友。可惜,它是个坏朋友,还是个骗子。运行nvidia-smi -pl 250并不会硬性限制在250W,它只是把毫秒级别的平均功耗限制在250W。GPU在这个毫秒内可能会有瞬态尖峰。如果这些尖峰恰好叠加起来,就可能触发电源的过流保护(OCP)。
要避免这种情况,你需要限制时钟频率,而不仅仅是功耗限制。比如用nvidia-smi -lgc 210,1500可以避免触发OCP。
我的配置
我最终选择了以下配置:
-
主板:ASRock Rack ROMED8-2t;根据我的调研,这似乎是家庭GPU集群的热门选择。r/localllama上很多做多3090设置的人都用这块板子,我觉得tinybox red可能也用的它,James Betker(nonint)也用它搭过集群。有人抱怨固件更新有问题。到目前为止,我还没试过更新。我唯一的不满就是并非所有错误码都在手册中注明,所以如果出了小问题,你得自己调试。它有整整7个16x PCIe插槽,意味着不用拆分就能扩展到超过4块GPU!
-
CPU:Epyc 7532;目前eBay上这类CPU相当便宜,提供32核/64线程。如果能高效并行化任务……那还不错。更棒的是,它有128条PCIe通道,足以跑7块GPU(16x)再加一些NVMe硬盘。注意TDP为200W,所以做功耗规划时要考虑进去。
-
电源:Thermaltake 1650;这差不多是美国插座能接的最大功率电源了。美国插座最大1800W(15V*120A),但实际安全上限是1440W(80%)。你不想要1400W的电源原因很多:电源效率达不到100%,接近满载运行噪音大、缩短寿命,而且越接近满载效率越低。电源有效率曲线。
-
内存:DDR4 ECC;我没法告诉你具体买什么内存。但必须用ECC RDIMM或ECC LRDIMM(ECC = 错误校正码)。每块主板有推荐的SKU,我在eBay上找了最便宜的匹配SKU。最后选了4根64GB内存,共256GB。这已经远远够用,未来如果内存价格回归理性,还能升级到512GB。还需要考虑内存速度和通道数。这些只有在你用ZeRO3微调较大模型时才比较重要,因为它通过CPU将梯度卸载到内存,所以内存的读写速度会成为瓶颈。
-
GPU:4块限电版3090Ti;坦率说,我建议你选3090而不是3090Ti(后面会解释原因),但我运气很好,前两块买得相当便宜,又不想混用GPU型号。每块3090Ti的TDP是450W,乍看起来我肯定没戏(450W x 4 = 1800W)。但可以通过限电并降低时钟频率来解决。(我发布了一些辅助脚本:https://github.com/jbarrow/gpu-management)
-
机箱:廉价矿机机箱;还是少说为妙。我选了6 GPU机箱,因为它比8 GPU机箱占地小得多,也比12 GPU机箱矮很多。
避免离婚
也许我能给你的最重要建议是,如果你决定踏上类似旅程,一定要顾及同住的人。如果你的爱好给别人造成负担,别当混蛋是你的责任。这种工作站就像个噪音很大的取暖器,很侵扰。我没有地下室或任何“不碍事”的空间可放。所以我的约定是:只要它任何时候太吵或太热,我就关掉它。我经常在深夜或没人在房间的时候做批量推理。
满负荷运行时,放着工作站的房间会变得相当热。
满负荷运行时,放着工作站的房间会变得相当热。
我犯过的错误
使用3090Ti——这些卡的TDP比3090大得多(450W vs 350W)。这种功耗增加只带来了微小的性能提升,尤其是看每瓦性能的话。2022年我从NVIDIA拿到了一个远低于建议零售价的3090Ti好deal,那时GPU价格普遍高于建议零售价,这让我走上了这条路。如果再选一次,我大概会全部用EVGA FTW3 3090,它们使用2根PCIe 8-pin线缆而不是单根12VHWPR线缆。在好deal上犹豫不决——过程中我遇到过很多好deal(内存、SSD、GPU等),但因为还没完全决定要不要造机器而等了又等。不幸的是,在如今元器件价格非常不稳定的环境下,这基本是最糟糕的做法。没仔细读手册。说实话,至少主板手册应该读。我就发现默认情况下有一个NVMe槽是禁用的,需要改动一个跳线才能用。
幸好损失不算太大(但要是从3090Ti换成3090,那可就是大麻烦了)。
软件方面的一些建议
我装的是Ubuntu server + tailscale,这样可以从任何地方SSH到机器上。大部分娱乐性开发都在机器上用neovim完成。我用github同步代码,rsync同步数据,或者挂载NAS同步大数据。我不确定是否建议你跑Proxmox之类的。说实话,我考虑过装Slurm来调度任务,但一直没腾出手来搞。
我安装了@realGeorgeHotz / @tinygrad 的破解版Nvidia驱动,支持GPU p2p,强烈推荐给所有类似配置的人。
除了更好的nvbandwidth测试结果,我在实际使用中也看到ZeRO2的速度提升。
常见问题
预算更多或更少的话,我会怎么做?
预算更多的话,我会选工作站显卡。你可以在机箱里装4块涡轮风扇卡!如果预算无上限,那就是4块RTX PRO Blackwell 6000 Max-Q卡,每块有96GB VRAM和300W TDP。
可惜在我预算内,任何RTX PRO卡都算不过来。一块1600美元的RTX PRO 4000卡有24GB VRAM,速度大致相当于3090但内存带宽更低。150W的TDP确实诱人,但4块的价格相当于8块3090。不过如果预算更高,或者更担心噪音/散热,我会在XL机箱里配这些卡搭配相同配置。
预算更少的话不好说。我很看重可扩展性,所以可能还是会选服务器GPU,单根64GB ECC内存,和一块3090。这样以后要升级到同样的机器时,不需要淘汰任何零件。
我建议你也这么做吗?
除非你有点疯狂,并且想变得更疯狂。(是的。)
现在是打造GPU机器的好时机吗?
不幸的是,现在是家庭GPU集群最糟糕的时期之一。电脑配件很贵,而且还在涨价。目前正处内存短缺,你想要的服务器内存可能比一年前贵了3-5倍,甚至更多。存储价格也涨了2-3倍,所以在GPU、内存和存储之间可能要做一些取舍。
不过,现在也不是那么糟糕。市场上有大量不错的二手GPU出售!我读博期间(2016-2022),我们实验室的集群主要由1080Ti和2080Ti组成,也就是11GB的GPU。训练BERT模型和图卷积网络绰绰有余,但随着模型越来越大……
如今你可以买到二手3090,有24GB VRAM。当然,5090有32GB,RTX PRO 6000 Blackwell有96GB,但24GB现在也能做很多事情。
为什么不用云?
为什么我不多吃沙拉少吃美味三明治?为什么我骑自行车上班,明明地铁更快?因为我是人,有好奇心,我不是完美的优化器,你也不应该是。这件事成了我持续几个月的执念,我很享受搭建和捣腾的过程。
考虑使用两个插座呢?
有人建议我把电源分到两个插座上来规避约束(1)。可惜,这违反了约束(2);我的公寓里只有少数几个回路。你猜怎么着,当我第一次把机器插到第一个插座时,发现它和我烧水壶共用一个回路。只有在我一边跑OCR一边泡茶时才跳闸。
致谢
这篇文章的灵感来自互联网上一些很棒的人:
- @Tim_Dettmers,他关于GPU的文章对我读研期间至关重要,即使那时我买不起集群
- James Betker (https://nonint.com),他的家庭GPU集群(用于训练TortoiseTTS)是我的巨大灵感来源
- @TheZachMueller,他的家庭GPU工作站封装得比我好得多
- r/homelab和r/localllama上的朋友们,他们整天(并以此为乐)解决这类问题,以及版主@TheAhmadOsman(那个买GPU的人)
相似文章
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
我们真的都能搞定,对吧?双3090配置。
一位用户分享了他们搭建双3090 GPU系统以本地运行Qwen 3.6 27b模型的经验,在切换到Ubuntu并使用带有自定义补丁的club-3090工具后,实现了超过100 tokens/秒的速度。他们对本地AI的未来感到兴奋。
探寻4x 3090的甜点
一位用户分享了在运行Qwen3.6-27B与vLLM的4x RTX 3090平台上进行的功耗限制测试,发现220W是在最小化吞吐量损失下实现峰值效率的甜点。
@gippp69: 这位用户看到一张430美元的AI账单,于是干脆在桌下自己搭了个AI实验室 RTX 5090 + RTX 4090, 56GB VRAM, 128GB RAM, …
一位用户在桌下搭建了一个私人AI实验室,使用RTX 5090和RTX 4090显卡,运行Qwen、DeepSeek、Llama等本地开源模型,以避免API费用。
@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。