我的4.8万美元GPU服务器值吗?
摘要
一位前FAANG工程师讲述了为独立AI研究构建一台配备六张RTX 6000 Ada显卡、价值4.8万美元的GPU服务器的经历,详细介绍了构建过程、电源限制以及与云GPU租用的成本对比。
暂无内容
查看缓存全文
缓存时间: 2026/05/21 18:14
# 我花4.8万美元买GPU服务器,值吗?
来源:https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/
2024年,我辞掉了FAANG的工作,成为一名独立研究员。为此我需要GPU,于是我组装了一台名为"grumbl"的服务器,配备了6块6000 Ada GPU。
这篇博客将介绍组装过程、我遇到的一些问题,并回答一个关键问题:"自己组装服务器值不值,还是应该租用云端GPU?"
(取名"grumbl"是因为我好像拼不对"GPUs"这词……)
## GPU作为一种投资
这台机器花了我4.8万美元。听上去很贵,但比起辞职这件事,这已经便宜多了。因为失去收入,如果更强的GPU能让我比用小机器提前2个月做出成果,那买一台更强大的服务器就是值得的。所以我决定买一台能在公寓里运行的最强服务器。
## 选择GPU
我参考了Tim Dettmers的[GPU选购指南](https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/),觉得很有帮助。根据指南,我把范围缩小到A100、H100和RTX 6000 Ada。A100不支持FP8,推理性能也不如新GPU,而我的工作(强化学习)需要大量推理,所以最终在6000 Ada和H100之间选择。对比了6000 Ada、H100和A100的[性价比](https://lambdalabs.com/gpu-benchmarks),我最终选择了6000 Ada GPU。
## 电力限制
我住在公寓里,没法升级电路来支持标准数据中心服务器。6块GPU的功耗太大,单个公寓电路撑不住,所以我必须用两个电源,分别插在不同电路的两个插座上。
如果你搜一下"把电脑插到不同插座上",会看到一堆警告,说只要考虑这种方案,你就立马要自燃了。所以我雇了一位专业PC装机员来确保安全。这比自己全干要贵,但比搞错出事烧了公寓要便宜。
讽刺的是,整套设计都是围绕公寓电力限制做的,结果后来我把grumbl搬到了父母家的地下室,那里反而能升级电路。
## 自己组装GPU服务器 vs. 使用云服务商
买自己的GPU好,还是租云端的好?我决定通过计算实际使用GPU的时间,再对比租用同等算力的云服务成本来衡量。
2024年我算了一下,按照当时的GPU租用价格,如果我利用率达到85%以上,大约一年就能追上云服务的租金。这个利用率应该不难达到,但要全面分析,还得考虑电费,以及更新更强的GPU出现后,同等算力的租用成本会下降。
为了严谨,我写了个脚本,每分钟记录每块GPU的使用情况。我还记录了功耗(瓦特),以便计算电费。
这个分析我只对比了按需定价。也有6-12个月的预留实例套餐,但我觉得不太值——因为那也就比买服务器便宜一点,而我买下GPU还能保留所有权。
grumbl支持最多24个显示器,但不用显示器就是浪费潜力。我甚至能给自己做个迷你"拉斯维加斯球幕"。
## GPU使用率时间图
为了衡量GPU使用率,我统计了每天每块GPU至少被使用一次的时长(小时数)。这个比较对云租用是偏慷慨的,因为如果GPU空闲不到一小时,我肯定不会停掉云服务器再重启。
而且,这个对比对云租用更有利,因为我假设可以独立启停每块GPU。实际很多空闲时间是因为我同时在跑多个实验,其中一个结束或失败,但其他的还在跑;如果是租用,我也不会因此就停掉服务器。
注意:这里衡量的是GPU的使用程度,而不是训练效率。所以即使某块GPU利用率只有10%,这一小时仍算作活跃。(我的代码在云端跑也会同样低效。)
以下是用时图:
图中可以看到服务器有3次停机维护。这非常让人焦虑,因为你不知道起不来是因为单根PCIe转接卡坏了,还是出了灾难性故障烧坏了所有GPU。
2025年6月之后使用率明显上升;在那之前,我在跑小实验,开发时间和实验时间差不多,所以实验之间有更多空闲时间用于编码。2025年6月后,我接手了一个需要更多算力的项目,大多数GPU持续跑实验,只留1-2块做开发用。
从图上看,总平均使用率是76%。如果从2025年1月1日算起,利用率是85%。我承认,对这个数字有点失望。我可是24/7都在跑实验,而且实验结束后总有更多实验排队等着。我本以为轻松到95%以上。
## 最终计算
要计算节省的钱,第一步是用每天的租用价格乘以当天GPU使用的小时数,再累加起来。我没有历史云商API日志,所以通过网上带时间戳的参考信息估算了历史价格。
根据记录的电量数据,我算出电费大约3000美元,也就是每月125美元左右。
综合所有数据,截至2026年3月13日,租用同等算力的费用大约是68000美元,所以我目前节省了17000美元。
现在GPU已经回本了,按当前市场价,之后我每天能省90到105美元。
## 真正的最终计算
买服务器的目的不是为了省钱,而是为了造点酷东西。我花了很多时间尝试高风险高回报的实验,也经历了很多失败。但现在我有了不错的成果——我解决了LLM领域的一个大问题。下周一我就发布,到时就能看出这到底是个突破,还是只是LLM的幻觉了。
## 建议/其他笔记
- 自己组装这种高端服务器要非常小心,很容易犯昂贵的错误。我当初以为不能在公寓升级电路,所以必须用两个电源插在不同电路上,因此选了一块GPU互连较慢的主板。这对于并行跑许多小实验(我的主要用途)挺好,但对需要跨GPU分割模型的场景来说很差。
- 几次故障都是转接卡问题,Nathan Odle的[转接卡排查文章](https://www.mov-axbx.com/wopr/wopr_risers.html)帮了大忙。
- 我有穷研究生的花钱习惯,而且为此攒了好几年的钱。我很幸运能承担这种有风险的财务投入,但我不建议所有人都买这种机器。用Google Colab订阅、租便宜云GPU或小个人机器,也一样能做出优秀的工作。
- 租用GPU和拥有GPU的心态差异巨大。租用时,每个实验都要花钱,我得问自己值不值;拥有时,感觉*不*跑实验才是在亏钱。而且,不用老烦心地启停云实例,真的太爽了。
- 这个分析没有算上我自己的时间成本。搭建和维护这台服务器花了很多时间。
- 如果让我重来一次,我不会做这种定制组装。我会买标准数据中心服务器,然后在托管中心租个机位。不过那样就没办法时不时跟grumbl打个招呼了。
有问题或想法?在X上私信我(@rosmine),或发邮件到[email protected]
感谢@algomancer资助本文以及相关工作。
相似文章
我花了200英镑将数据中心GPU装进我的游戏PC
一位博主描述了他们如何以150英镑的价格购得一块Tesla V100 SXM2数据中心GPU,并使用定制转接器将其与RTX 4080一起安装到自己的游戏PC中,实现了总计32GB的显存,并能够以每秒32个token的速度本地推理27B参数模型。
@gippp69: 这位用户看到一张430美元的AI账单,于是干脆在桌下自己搭了个AI实验室 RTX 5090 + RTX 4090, 56GB VRAM, 128GB RAM, …
一位用户在桌下搭建了一个私人AI实验室,使用RTX 5090和RTX 4090显卡,运行Qwen、DeepSeek、Llama等本地开源模型,以避免API费用。
根据我的需求,购买5090值得吗?
用户询问,相较于云计算的替代方案,花费约5500美元购买RTX 5090及高端PC用于LLM实验和学习是否值得。
@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。
Project Blackwell:最终会成功——让RTX Pro 6000在Dell R730上以650K上下文运行
一名开发者记录了为在旧款戴尔PowerEdge R730服务器上运行NVIDIA RTX Pro 6000 Blackwell GPU所需进行的大量硬件和固件破解工作,从而实现了650K上下文长度的本地AI推理。