@barrowjoseph: https://x.com/barrowjoseph/status/2056417511826989310

X AI KOLs Timeline 2026/05/18 16:51 工具

gpu-workstation multi-gpu power-limit ai-training hardware-build deep-learning

摘要

一位研究生分享了他们使用单个美国墙壁插座运行4块3090 Ti显卡搭建多GPU工作站的经验，详细介绍了限制、功耗挑战以及组件选择。

https://t.co/29ZPECPb3d

查看原文

查看缓存全文

缓存时间: 2026/05/19 14:47

打造一台单插座、四GPU工作站

TL; DR 作为一名研究生，我最渴望的就是一台GPU工作站。如今作为有稳定收入的成年人，我终于能实现这个愿望了。

过去几个月，我零敲碎打地组装了一台多GPU工作站，确保它能依靠美国家用标准墙壁插座供电。这台机器让我能够在CommonForms数据集上训练一些DETR模型、一个13亿参数的VLM，并为LOCUS-v1数据集OCR了首批一百万页法律文本。

整台机器的建造约束如下：

必须能靠一个标准美国家用插座运行——15A，120V；这条没得商量，我租的房子没法改电路，也没法新加大功率电路；
不能成为烦扰；我不是独居，所以不能太吵或太热；
预算必须合理；大家对于“合理”的定义可能不同，我后面会详细列出成本。如果只考虑前两条约束，我本可以用6万美元造出更猛的机器，但那超出了我对“合理”的定义；
应具备足够的VRAM和速度，以便舒适地进行SFT和RL训练优秀的视觉语言模型；毕竟这才是做这件事的根本目的。

附注：你也可以在这里看到格式完美的版本：https://jbarrow.ai/2026-05-18-gpu-workstation/

我的工作主力机。目前是一台4x3090Ti的机器。用它我每天能OCR大约25万页，并以相当不错的batch size对Qwen-3 VL 2B进行完整微调。

计划

我的计划很简单：买一块有足够多PCIe x16插槽的服务器主板，一颗有足够多PCIe通道的CPU，尽可能多地插上便宜的DDR4内存，再搞一堆便宜SSD。然后把GPU功耗限制在一个合理范围内，就可以开开心心地跑实验了。

被现实打脸

每个人都有自己的计划，直到被现实打脸。

迈克·泰森

不幸的是，迈克·泰森说得对。在尝试组装工作站时，我被迫更改了好几次计划。

全球算力吃紧

如果你对过去一年电脑配件的价格有所了解，你就知道那个计划后来怎么样了。内存价格翻了五倍，SSD翻了三倍，二手GPU价格飞涨。

购买二手便宜的服务器配件已经不可能了。需要花更多时间和耐心才能找到价格合适的零件，在eBay、r/homelabsales和r/hardwareswap上反复淘。判断一个零件的好价格变得非常困难，我只好用“秘书问题”的思路来思考价格：根据最近的成交价和我愿意支付的最高上限，这个价格合理吗？

冒险使用二手零件

这台机器里几乎每个零件都是二手的，除了第一块3090 Ti。二手零件有独特风险：这块硬盘是不是快挂了？GPU能用吗？整个账号是不是骗子？

我算比较幸运，不过有一次我下单了3090 Ti，收到的却是3090。卖家回复很及时，最后退了款。但风险就是这游戏的一部分。

我收到的是3090，而不是我订购的3090 Ti。

限电并不像看起来那么简单

如果想靠一个插座运行，限电是你的好朋友。可惜，它是个坏朋友，还是个骗子。运行nvidia-smi -pl 250并不会硬性限制在250W，它只是把毫秒级别的平均功耗限制在250W。GPU在这个毫秒内可能会有瞬态尖峰。如果这些尖峰恰好叠加起来，就可能触发电源的过流保护（OCP）。

要避免这种情况，你需要限制时钟频率，而不仅仅是功耗限制。比如用nvidia-smi -lgc 210,1500可以避免触发OCP。

我的配置

我最终选择了以下配置：

主板：ASRock Rack ROMED8-2t；根据我的调研，这似乎是家庭GPU集群的热门选择。r/localllama上很多做多3090设置的人都用这块板子，我觉得tinybox red可能也用的它，James Betker（nonint）也用它搭过集群。有人抱怨固件更新有问题。到目前为止，我还没试过更新。我唯一的不满就是并非所有错误码都在手册中注明，所以如果出了小问题，你得自己调试。它有整整7个16x PCIe插槽，意味着不用拆分就能扩展到超过4块GPU！
CPU：Epyc 7532；目前eBay上这类CPU相当便宜，提供32核/64线程。如果能高效并行化任务……那还不错。更棒的是，它有128条PCIe通道，足以跑7块GPU（16x）再加一些NVMe硬盘。注意TDP为200W，所以做功耗规划时要考虑进去。
电源：Thermaltake 1650；这差不多是美国插座能接的最大功率电源了。美国插座最大1800W（15V*120A），但实际安全上限是1440W（80%）。你不想要1400W的电源原因很多：电源效率达不到100%，接近满载运行噪音大、缩短寿命，而且越接近满载效率越低。电源有效率曲线。
内存：DDR4 ECC；我没法告诉你具体买什么内存。但必须用ECC RDIMM或ECC LRDIMM（ECC = 错误校正码）。每块主板有推荐的SKU，我在eBay上找了最便宜的匹配SKU。最后选了4根64GB内存，共256GB。这已经远远够用，未来如果内存价格回归理性，还能升级到512GB。还需要考虑内存速度和通道数。这些只有在你用ZeRO3微调较大模型时才比较重要，因为它通过CPU将梯度卸载到内存，所以内存的读写速度会成为瓶颈。
GPU：4块限电版3090Ti；坦率说，我建议你选3090而不是3090Ti（后面会解释原因），但我运气很好，前两块买得相当便宜，又不想混用GPU型号。每块3090Ti的TDP是450W，乍看起来我肯定没戏（450W x 4 = 1800W）。但可以通过限电并降低时钟频率来解决。（我发布了一些辅助脚本：https://github.com/jbarrow/gpu-management）
机箱：廉价矿机机箱；还是少说为妙。我选了6 GPU机箱，因为它比8 GPU机箱占地小得多，也比12 GPU机箱矮很多。

避免离婚

也许我能给你的最重要建议是，如果你决定踏上类似旅程，一定要顾及同住的人。如果你的爱好给别人造成负担，别当混蛋是你的责任。这种工作站就像个噪音很大的取暖器，很侵扰。我没有地下室或任何“不碍事”的空间可放。所以我的约定是：只要它任何时候太吵或太热，我就关掉它。我经常在深夜或没人在房间的时候做批量推理。

满负荷运行时，放着工作站的房间会变得相当热。

我犯过的错误

使用3090Ti——这些卡的TDP比3090大得多（450W vs 350W）。这种功耗增加只带来了微小的性能提升，尤其是看每瓦性能的话。2022年我从NVIDIA拿到了一个远低于建议零售价的3090Ti好deal，那时GPU价格普遍高于建议零售价，这让我走上了这条路。如果再选一次，我大概会全部用EVGA FTW3 3090，它们使用2根PCIe 8-pin线缆而不是单根12VHWPR线缆。在好deal上犹豫不决——过程中我遇到过很多好deal（内存、SSD、GPU等），但因为还没完全决定要不要造机器而等了又等。不幸的是，在如今元器件价格非常不稳定的环境下，这基本是最糟糕的做法。没仔细读手册。说实话，至少主板手册应该读。我就发现默认情况下有一个NVMe槽是禁用的，需要改动一个跳线才能用。

幸好损失不算太大（但要是从3090Ti换成3090，那可就是大麻烦了）。

软件方面的一些建议

我装的是Ubuntu server + tailscale，这样可以从任何地方SSH到机器上。大部分娱乐性开发都在机器上用neovim完成。我用github同步代码，rsync同步数据，或者挂载NAS同步大数据。我不确定是否建议你跑Proxmox之类的。说实话，我考虑过装Slurm来调度任务，但一直没腾出手来搞。

我安装了@realGeorgeHotz / @tinygrad 的破解版Nvidia驱动，支持GPU p2p，强烈推荐给所有类似配置的人。

除了更好的nvbandwidth测试结果，我在实际使用中也看到ZeRO2的速度提升。

常见问题

预算更多或更少的话，我会怎么做？

预算更多的话，我会选工作站显卡。你可以在机箱里装4块涡轮风扇卡！如果预算无上限，那就是4块RTX PRO Blackwell 6000 Max-Q卡，每块有96GB VRAM和300W TDP。

可惜在我预算内，任何RTX PRO卡都算不过来。一块1600美元的RTX PRO 4000卡有24GB VRAM，速度大致相当于3090但内存带宽更低。150W的TDP确实诱人，但4块的价格相当于8块3090。不过如果预算更高，或者更担心噪音/散热，我会在XL机箱里配这些卡搭配相同配置。

预算更少的话不好说。我很看重可扩展性，所以可能还是会选服务器GPU，单根64GB ECC内存，和一块3090。这样以后要升级到同样的机器时，不需要淘汰任何零件。

我建议你也这么做吗？

除非你有点疯狂，并且想变得更疯狂。（是的。）

现在是打造GPU机器的好时机吗？

不幸的是，现在是家庭GPU集群最糟糕的时期之一。电脑配件很贵，而且还在涨价。目前正处内存短缺，你想要的服务器内存可能比一年前贵了3-5倍，甚至更多。存储价格也涨了2-3倍，所以在GPU、内存和存储之间可能要做一些取舍。

不过，现在也不是那么糟糕。市场上有大量不错的二手GPU出售！我读博期间（2016-2022），我们实验室的集群主要由1080Ti和2080Ti组成，也就是11GB的GPU。训练BERT模型和图卷积网络绰绰有余，但随着模型越来越大……

如今你可以买到二手3090，有24GB VRAM。当然，5090有32GB，RTX PRO 6000 Blackwell有96GB，但24GB现在也能做很多事情。

为什么不用云？

为什么我不多吃沙拉少吃美味三明治？为什么我骑自行车上班，明明地铁更快？因为我是人，有好奇心，我不是完美的优化器，你也不应该是。这件事成了我持续几个月的执念，我很享受搭建和捣腾的过程。

考虑使用两个插座呢？

有人建议我把电源分到两个插座上来规避约束（1）。可惜，这违反了约束（2）；我的公寓里只有少数几个回路。你猜怎么着，当我第一次把机器插到第一个插座时，发现它和我烧水壶共用一个回路。只有在我一边跑OCR一边泡茶时才跳闸。

致谢

这篇文章的灵感来自互联网上一些很棒的人：

@Tim_Dettmers，他关于GPU的文章对我读研期间至关重要，即使那时我买不起集群
James Betker (https://nonint.com)，他的家庭GPU集群（用于训练TortoiseTTS）是我的巨大灵感来源
@TheZachMueller，他的家庭GPU工作站封装得比我好得多
r/homelab和r/localllama上的朋友们，他们整天（并以此为乐）解决这类问题，以及版主@TheAhmadOsman（那个买GPU的人）

@barrowjoseph: https://x.com/barrowjoseph/status/2056417511826989310

打造一台单插座、四GPU工作站

计划

被现实打脸

全球算力吃紧

冒险使用二手零件

限电并不像看起来那么简单

我的配置

避免离婚

我犯过的错误

软件方面的一些建议

常见问题

预算更多或更少的话，我会怎么做？

我建议你也这么做吗？

现在是打造GPU机器的好时机吗？

为什么不用云？

考虑使用两个插座呢？

致谢

相似文章

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

我们真的都能搞定，对吧？双3090配置。

探寻4x 3090的甜点

@gippp69: 这位用户看到一张430美元的AI账单，于是干脆在桌下自己搭了个AI实验室 RTX 5090 + RTX 4090, 56GB VRAM, 128GB RAM, …

@andrewchen：体验本地AI模型的主要缺点在于你会买一块GPU，然后另一块，接着又一块……

提交意见反馈