我的6.4千美元本地LLM服务器的费用分析

Reddit r/LocalLLaMA 新闻

摘要

关于构建和运行一台价值6400美元的本地LLM服务器的详细成本分析,比较了总拥有成本(电费、折旧)与等效的API使用和编码计划订阅,得出结论:长期来看本地托管可能更经济。

我还没见过有人做过这种分析,所以想分享一下我的经验,或许对大家有用。这篇文章的目的是展示我本地LLM服务器的总拥有成本与API等效成本的对比。在查看最终数字之前,请注意,大多数人并未对硬件进行正确的财务核算。大多数人将硬件视为完全折旧的成本,而实际上硬件通常折旧缓慢,甚至在某些情况下随时间增值。这显著改变了TCO结果,也解释了为什么底部的数字比别人提到的更好。 # 硬件 首先是运到的硬件价格: * 二手 4x MI100 32GB:4234.82美元 * 全新 ASRock EPYCD8-2T:721.61美元 * 全新 1600W 80+ 白金 PSU:497.95美元 * 二手 8x8GB DDR4 ECC RDIMM:348.79美元 * 二手 Epyc 7k62 48核 CPU:254.28美元 * 全新 CPU散热器:167.31美元 * 全新 ATX机箱:132.43美元 * 4x SATA转USB电源线(用于鼓风机):28.56美元 * 4x 75x30mm 鼓风机(用于GPU):13.76美元 * 用于鼓风机加工的塑料板:6.94美元 * 存储是我闲置的1TB M.2硬盘:免费 总价:6406.45美元 # 配置 服务器目前配置为运行四个独立的llama.cpp实例,运行Qwen3.6 27B模型。操作系统是Ubuntu,搭载最新ROCm。所有组件均采用低功耗配置,在当前工作负载下,每天可处理2040万输入token和132万输出token。我确实将所有这些token容量用于一个业务流程。实际token输出比我预期的要低,我将在下面的备注中说明。 # 等效API成本 Qwen3.6 27B目前在OpenRouter上的价格为每百万输入token 0.29美元,每百万输出token 3.2美元。这意味着当前处理量每天价值5.92美元(输入)和4.22美元(输出),合计每天10.14美元。按年计算,等效API成本为3701.10美元,每月为308.43美元。 API成本:每年3701.1美元 # 等效编码计划成本 我觉得还是把这个加进来,因为否则很难量化,而且可能有用。我也使用Z.AI编码计划作为同一业务流程的API提供商。这样一来,我可以衡量他们实际提供的token数量,并得出相当可比的结果。我购买了ZAI的最佳计划,目前每月144美元,每天允许我使用约450万输入token和20万输出token的GLM 4.7模型。信不信由你,GLM 4.7在OpenRouter上其实比Qwen3.6 27B便宜,并且在许多基准测试中两者相当,所以这比我预期的更公平。换算下来,通过这个计划获得相同容量每月大约需要652.8美元,即每年7833.60美元。这比通过OpenRouter使用相同数量的GLM 4.7或Qwen3.6 27B的API成本高出一倍多。所以提醒一下,编码计划并不总是物有所值。确保你清楚自己在为什么付费。我实际上在年初他们做活动时以更低价格购买了该计划,所以对我来说还算划算,但一年到期后我肯定不会续订了。 # 本地LLM成本 # 电力 我将服务器配置为低功耗模式,因此在满LLM负载下,整台服务器从墙上消耗630瓦。这相当于每天15.1千瓦时,按每千瓦时0.14美元计算,每天运行成本为2.11美元。每千瓦时0.14美元对我来说是最坏情况,实际成本大约为0.08美元(包括非高峰时间和冬季费率),但难以精确估算,所以我选择保持非常保守的估算。按较高费率计算,我的本地LLM服务器每年电费为770.15美元。 本地LLM成本:每年770.15美元,即每月64.18美元 # 硬件折旧 接下来,折旧是一个会计术语,表示某物随时间价值减少的程度。大多数人熟悉的现金会计实际上并不准确,因为如果你拥有一项资产,它仍然有价值,最终可以变现以收回部分价格。折旧显示了随时间拥有某物的成本,即如果你在那个时间点出售它会损失多少。对于硬件,假设所有配件全额折旧(完全损失),新组件折旧50%,二手组件折旧10%。 * 配件:349美元 \* 100% = 349美元 * 新组件:1219.56美元 \* 50% = 609.78美元 * 二手组件:4837.89美元 \* 10% = 483.79美元 我认为可以说这种折旧在购买后一天或五年后大致相同。所以基本上这是一次性成本,只会随时间略微增加。 本地LLM成本:1442.57美元(一次性) # 基础设施 为了确保服务器拥有不受家中其他设备影响的可靠电源,并能承受启动浪涌电流,我请专业人员安装了一条新的专用电路,连接到一个新的20安培断路器。这花费了780美元。这并非完全必要,但我认为长期来看是个好主意,因为系统可能足以使15安培电路饱和。我已经有一个带有交换机、路由器和机架的家庭实验室,所以这部分是免费的。我将功耗控制在合理水平,因此不需要额外的暖通空调。系统人工免费,因为我自己动手,而且我喜欢折腾电脑。 本地LLM成本:780美元(一次性) # 本地LLM总成本与节省 将本地LLM设置的所有成本加起来,第一年总成本为2992.72美元。再次强调,这是成本,而非现金支出。API成本为每年3701.1美元,因此第一年节省了708.38美元。随后几年,本地LLM服务器的运营成本为770.15美元,假设API成本不变(实际上不会,但仅用于说明),每年可节省2930.95美元。 * 第一年本地LLM服务器成本:2992.72美元 * 后续年份本地LLM服务器成本:770.15美元 * API成本:3701.1美元 * 第一年节省:708.38美元 * 后续年份节省:2930.95美元 # 备注 我之前提到token输出低于预期。虽然我对这些显卡使用了低功耗配置,但基准测试显示,它们的运行速度约为全速的70%。换句话说,全速下可多产生约43%的token。这仍然低于我的预期。我认为主要原因在于MI100是一款稀有显卡,在主流LLM软件中优化不佳。因此,尽管其原始规格不错,但实际表现并未达到我的期望。我原本希望性能翻倍,因为我的7900 XTX拥有类似的原始规格,性能正是如此。我选择MI100的主要原因在于它们支持3路互连桥。不幸的是,关于这些桥的资料几乎为零,我花了好几天时间也无法让它与我的主板配合工作,最终选择了退货。这是这套系统最大的失望之处,因为互连桥对于中等规模模型来说本应是一个巨大优势。但据我所知,该桥需要非常特定的PCIe架构,只有其部署系统中的一组受支持主板才能提供。如果让我重新选择,我可能会选择像R9700这样的专业消费级显卡,或者像几块DGX Spark这样的统一内存设置。我期望它们在各个方面都更容易使用,并给我带来更多长期选择。我确实有一台Strix Halo笔记本电脑,这类设备(包括Spark和Apple产品)最终是极好的选择,特别是对于中等规模模型,在GPU设置中会触及PCIe瓶颈。如果你打算使用中等规模模型,我强烈建议堆叠此类设备,而不是走我的路,因为一旦考虑到PCIe,它们的速度相当快,而且功耗极低,能显著降低电费。希望这些对你有帮助!
查看原文

相似文章

降低LLM API成本的10种方法

Reddit r/AI_Agents

一份实用指南,列出了使用LLM API时降低成本的10种策略,包括模型选择、提示缓存、批处理以及监控费用。

我对LLM代码风格与Token成本的发现

Hacker News Top

本文讨论了LLM代码风格选择如何影响Token消耗和成本,并提供了优化建议,如使用Web API标准和更简单的缩进以减少输出Token。

当前LLM成本为何不可持续

Hacker News Top

本文认为,当前高昂的LLM定价不可持续,原因是性能提升递减、开源权重模型兴起、专用AI芯片降低推理成本以及零切换成本,并预测随着竞争加剧,价格将大幅下降。