我的6.4千美元本地LLM服务器的费用分析
摘要
关于构建和运行一台价值6400美元的本地LLM服务器的详细成本分析,比较了总拥有成本(电费、折旧)与等效的API使用和编码计划订阅,得出结论:长期来看本地托管可能更经济。
我还没见过有人做过这种分析,所以想分享一下我的经验,或许对大家有用。这篇文章的目的是展示我本地LLM服务器的总拥有成本与API等效成本的对比。在查看最终数字之前,请注意,大多数人并未对硬件进行正确的财务核算。大多数人将硬件视为完全折旧的成本,而实际上硬件通常折旧缓慢,甚至在某些情况下随时间增值。这显著改变了TCO结果,也解释了为什么底部的数字比别人提到的更好。
# 硬件
首先是运到的硬件价格:
* 二手 4x MI100 32GB:4234.82美元
* 全新 ASRock EPYCD8-2T:721.61美元
* 全新 1600W 80+ 白金 PSU:497.95美元
* 二手 8x8GB DDR4 ECC RDIMM:348.79美元
* 二手 Epyc 7k62 48核 CPU:254.28美元
* 全新 CPU散热器:167.31美元
* 全新 ATX机箱:132.43美元
* 4x SATA转USB电源线(用于鼓风机):28.56美元
* 4x 75x30mm 鼓风机(用于GPU):13.76美元
* 用于鼓风机加工的塑料板:6.94美元
* 存储是我闲置的1TB M.2硬盘:免费
总价:6406.45美元
# 配置
服务器目前配置为运行四个独立的llama.cpp实例,运行Qwen3.6 27B模型。操作系统是Ubuntu,搭载最新ROCm。所有组件均采用低功耗配置,在当前工作负载下,每天可处理2040万输入token和132万输出token。我确实将所有这些token容量用于一个业务流程。实际token输出比我预期的要低,我将在下面的备注中说明。
# 等效API成本
Qwen3.6 27B目前在OpenRouter上的价格为每百万输入token 0.29美元,每百万输出token 3.2美元。这意味着当前处理量每天价值5.92美元(输入)和4.22美元(输出),合计每天10.14美元。按年计算,等效API成本为3701.10美元,每月为308.43美元。
API成本:每年3701.1美元
# 等效编码计划成本
我觉得还是把这个加进来,因为否则很难量化,而且可能有用。我也使用Z.AI编码计划作为同一业务流程的API提供商。这样一来,我可以衡量他们实际提供的token数量,并得出相当可比的结果。我购买了ZAI的最佳计划,目前每月144美元,每天允许我使用约450万输入token和20万输出token的GLM 4.7模型。信不信由你,GLM 4.7在OpenRouter上其实比Qwen3.6 27B便宜,并且在许多基准测试中两者相当,所以这比我预期的更公平。换算下来,通过这个计划获得相同容量每月大约需要652.8美元,即每年7833.60美元。这比通过OpenRouter使用相同数量的GLM 4.7或Qwen3.6 27B的API成本高出一倍多。所以提醒一下,编码计划并不总是物有所值。确保你清楚自己在为什么付费。我实际上在年初他们做活动时以更低价格购买了该计划,所以对我来说还算划算,但一年到期后我肯定不会续订了。
# 本地LLM成本
# 电力
我将服务器配置为低功耗模式,因此在满LLM负载下,整台服务器从墙上消耗630瓦。这相当于每天15.1千瓦时,按每千瓦时0.14美元计算,每天运行成本为2.11美元。每千瓦时0.14美元对我来说是最坏情况,实际成本大约为0.08美元(包括非高峰时间和冬季费率),但难以精确估算,所以我选择保持非常保守的估算。按较高费率计算,我的本地LLM服务器每年电费为770.15美元。
本地LLM成本:每年770.15美元,即每月64.18美元
# 硬件折旧
接下来,折旧是一个会计术语,表示某物随时间价值减少的程度。大多数人熟悉的现金会计实际上并不准确,因为如果你拥有一项资产,它仍然有价值,最终可以变现以收回部分价格。折旧显示了随时间拥有某物的成本,即如果你在那个时间点出售它会损失多少。对于硬件,假设所有配件全额折旧(完全损失),新组件折旧50%,二手组件折旧10%。
* 配件:349美元 \* 100% = 349美元
* 新组件:1219.56美元 \* 50% = 609.78美元
* 二手组件:4837.89美元 \* 10% = 483.79美元
我认为可以说这种折旧在购买后一天或五年后大致相同。所以基本上这是一次性成本,只会随时间略微增加。
本地LLM成本:1442.57美元(一次性)
# 基础设施
为了确保服务器拥有不受家中其他设备影响的可靠电源,并能承受启动浪涌电流,我请专业人员安装了一条新的专用电路,连接到一个新的20安培断路器。这花费了780美元。这并非完全必要,但我认为长期来看是个好主意,因为系统可能足以使15安培电路饱和。我已经有一个带有交换机、路由器和机架的家庭实验室,所以这部分是免费的。我将功耗控制在合理水平,因此不需要额外的暖通空调。系统人工免费,因为我自己动手,而且我喜欢折腾电脑。
本地LLM成本:780美元(一次性)
# 本地LLM总成本与节省
将本地LLM设置的所有成本加起来,第一年总成本为2992.72美元。再次强调,这是成本,而非现金支出。API成本为每年3701.1美元,因此第一年节省了708.38美元。随后几年,本地LLM服务器的运营成本为770.15美元,假设API成本不变(实际上不会,但仅用于说明),每年可节省2930.95美元。
* 第一年本地LLM服务器成本:2992.72美元
* 后续年份本地LLM服务器成本:770.15美元
* API成本:3701.1美元
* 第一年节省:708.38美元
* 后续年份节省:2930.95美元
# 备注
我之前提到token输出低于预期。虽然我对这些显卡使用了低功耗配置,但基准测试显示,它们的运行速度约为全速的70%。换句话说,全速下可多产生约43%的token。这仍然低于我的预期。我认为主要原因在于MI100是一款稀有显卡,在主流LLM软件中优化不佳。因此,尽管其原始规格不错,但实际表现并未达到我的期望。我原本希望性能翻倍,因为我的7900 XTX拥有类似的原始规格,性能正是如此。我选择MI100的主要原因在于它们支持3路互连桥。不幸的是,关于这些桥的资料几乎为零,我花了好几天时间也无法让它与我的主板配合工作,最终选择了退货。这是这套系统最大的失望之处,因为互连桥对于中等规模模型来说本应是一个巨大优势。但据我所知,该桥需要非常特定的PCIe架构,只有其部署系统中的一组受支持主板才能提供。如果让我重新选择,我可能会选择像R9700这样的专业消费级显卡,或者像几块DGX Spark这样的统一内存设置。我期望它们在各个方面都更容易使用,并给我带来更多长期选择。我确实有一台Strix Halo笔记本电脑,这类设备(包括Spark和Apple产品)最终是极好的选择,特别是对于中等规模模型,在GPU设置中会触及PCIe瓶颈。如果你打算使用中等规模模型,我强烈建议堆叠此类设备,而不是走我的路,因为一旦考虑到PCIe,它们的速度相当快,而且功耗极低,能显著降低电费。希望这些对你有帮助!
相似文章
降低LLM API成本的10种方法
一份实用指南,列出了使用LLM API时降低成本的10种策略,包括模型选择、提示缓存、批处理以及监控费用。
高端私有本地 LLM 方案真的值得吗?
一位用户在纠结,投入 5×3090 GPU 的高端本地 LLM 配置,能否在保障数据隐私的同时,追平 Claude 或 GPT 等云端服务。
我对LLM代码风格与Token成本的发现
本文讨论了LLM代码风格选择如何影响Token消耗和成本,并提供了优化建议,如使用Web API标准和更简单的缩进以减少输出Token。
如何为7人规模的企业搭建本地大语言模型服务器?
用户询问如何为7人企业搭建本地LLM服务器,考虑Gemma 4和Qwen 3.6等模型、5090或MacBook Pro等硬件选项,以及并发用户扩展问题。
当前LLM成本为何不可持续
本文认为,当前高昂的LLM定价不可持续,原因是性能提升递减、开源权重模型兴起、专用AI芯片降低推理成本以及零切换成本,并预测随着竞争加剧,价格将大幅下降。