我的6.4千美元本地LLM服务器的费用分析

Reddit r/LocalLLaMA 2026/05/30 21:09 新闻

摘要

关于构建和运行一台价值6400美元的本地LLM服务器的详细成本分析，比较了总拥有成本（电费、折旧）与等效的API使用和编码计划订阅，得出结论：长期来看本地托管可能更经济。

我还没见过有人做过这种分析，所以想分享一下我的经验，或许对大家有用。这篇文章的目的是展示我本地LLM服务器的总拥有成本与API等效成本的对比。在查看最终数字之前，请注意，大多数人并未对硬件进行正确的财务核算。大多数人将硬件视为完全折旧的成本，而实际上硬件通常折旧缓慢，甚至在某些情况下随时间增值。这显著改变了TCO结果，也解释了为什么底部的数字比别人提到的更好。 # 硬件首先是运到的硬件价格： * 二手 4x MI100 32GB：4234.82美元 * 全新 ASRock EPYCD8-2T：721.61美元 * 全新 1600W 80+ 白金 PSU：497.95美元 * 二手 8x8GB DDR4 ECC RDIMM：348.79美元 * 二手 Epyc 7k62 48核 CPU：254.28美元 * 全新 CPU散热器：167.31美元 * 全新 ATX机箱：132.43美元 * 4x SATA转USB电源线（用于鼓风机）：28.56美元 * 4x 75x30mm 鼓风机（用于GPU）：13.76美元 * 用于鼓风机加工的塑料板：6.94美元 * 存储是我闲置的1TB M.2硬盘：免费总价：6406.45美元 # 配置服务器目前配置为运行四个独立的llama.cpp实例，运行Qwen3.6 27B模型。操作系统是Ubuntu，搭载最新ROCm。所有组件均采用低功耗配置，在当前工作负载下，每天可处理2040万输入token和132万输出token。我确实将所有这些token容量用于一个业务流程。实际token输出比我预期的要低，我将在下面的备注中说明。 # 等效API成本 Qwen3.6 27B目前在OpenRouter上的价格为每百万输入token 0.29美元，每百万输出token 3.2美元。这意味着当前处理量每天价值5.92美元（输入）和4.22美元（输出），合计每天10.14美元。按年计算，等效API成本为3701.10美元，每月为308.43美元。 API成本：每年3701.1美元 # 等效编码计划成本我觉得还是把这个加进来，因为否则很难量化，而且可能有用。我也使用Z.AI编码计划作为同一业务流程的API提供商。这样一来，我可以衡量他们实际提供的token数量，并得出相当可比的结果。我购买了ZAI的最佳计划，目前每月144美元，每天允许我使用约450万输入token和20万输出token的GLM 4.7模型。信不信由你，GLM 4.7在OpenRouter上其实比Qwen3.6 27B便宜，并且在许多基准测试中两者相当，所以这比我预期的更公平。换算下来，通过这个计划获得相同容量每月大约需要652.8美元，即每年7833.60美元。这比通过OpenRouter使用相同数量的GLM 4.7或Qwen3.6 27B的API成本高出一倍多。所以提醒一下，编码计划并不总是物有所值。确保你清楚自己在为什么付费。我实际上在年初他们做活动时以更低价格购买了该计划，所以对我来说还算划算，但一年到期后我肯定不会续订了。 # 本地LLM成本 # 电力我将服务器配置为低功耗模式，因此在满LLM负载下，整台服务器从墙上消耗630瓦。这相当于每天15.1千瓦时，按每千瓦时0.14美元计算，每天运行成本为2.11美元。每千瓦时0.14美元对我来说是最坏情况，实际成本大约为0.08美元（包括非高峰时间和冬季费率），但难以精确估算，所以我选择保持非常保守的估算。按较高费率计算，我的本地LLM服务器每年电费为770.15美元。本地LLM成本：每年770.15美元，即每月64.18美元 # 硬件折旧接下来，折旧是一个会计术语，表示某物随时间价值减少的程度。大多数人熟悉的现金会计实际上并不准确，因为如果你拥有一项资产，它仍然有价值，最终可以变现以收回部分价格。折旧显示了随时间拥有某物的成本，即如果你在那个时间点出售它会损失多少。对于硬件，假设所有配件全额折旧（完全损失），新组件折旧50%，二手组件折旧10%。 * 配件：349美元 \* 100% = 349美元 * 新组件：1219.56美元 \* 50% = 609.78美元 * 二手组件：4837.89美元 \* 10% = 483.79美元我认为可以说这种折旧在购买后一天或五年后大致相同。所以基本上这是一次性成本，只会随时间略微增加。本地LLM成本：1442.57美元（一次性） # 基础设施为了确保服务器拥有不受家中其他设备影响的可靠电源，并能承受启动浪涌电流，我请专业人员安装了一条新的专用电路，连接到一个新的20安培断路器。这花费了780美元。这并非完全必要，但我认为长期来看是个好主意，因为系统可能足以使15安培电路饱和。我已经有一个带有交换机、路由器和机架的家庭实验室，所以这部分是免费的。我将功耗控制在合理水平，因此不需要额外的暖通空调。系统人工免费，因为我自己动手，而且我喜欢折腾电脑。本地LLM成本：780美元（一次性） # 本地LLM总成本与节省将本地LLM设置的所有成本加起来，第一年总成本为2992.72美元。再次强调，这是成本，而非现金支出。API成本为每年3701.1美元，因此第一年节省了708.38美元。随后几年，本地LLM服务器的运营成本为770.15美元，假设API成本不变（实际上不会，但仅用于说明），每年可节省2930.95美元。 * 第一年本地LLM服务器成本：2992.72美元 * 后续年份本地LLM服务器成本：770.15美元 * API成本：3701.1美元 * 第一年节省：708.38美元 * 后续年份节省：2930.95美元 # 备注我之前提到token输出低于预期。虽然我对这些显卡使用了低功耗配置，但基准测试显示，它们的运行速度约为全速的70%。换句话说，全速下可多产生约43%的token。这仍然低于我的预期。我认为主要原因在于MI100是一款稀有显卡，在主流LLM软件中优化不佳。因此，尽管其原始规格不错，但实际表现并未达到我的期望。我原本希望性能翻倍，因为我的7900 XTX拥有类似的原始规格，性能正是如此。我选择MI100的主要原因在于它们支持3路互连桥。不幸的是，关于这些桥的资料几乎为零，我花了好几天时间也无法让它与我的主板配合工作，最终选择了退货。这是这套系统最大的失望之处，因为互连桥对于中等规模模型来说本应是一个巨大优势。但据我所知，该桥需要非常特定的PCIe架构，只有其部署系统中的一组受支持主板才能提供。如果让我重新选择，我可能会选择像R9700这样的专业消费级显卡，或者像几块DGX Spark这样的统一内存设置。我期望它们在各个方面都更容易使用，并给我带来更多长期选择。我确实有一台Strix Halo笔记本电脑，这类设备（包括Spark和Apple产品）最终是极好的选择，特别是对于中等规模模型，在GPU设置中会触及PCIe瓶颈。如果你打算使用中等规模模型，我强烈建议堆叠此类设备，而不是走我的路，因为一旦考虑到PCIe，它们的速度相当快，而且功耗极低，能显著降低电费。希望这些对你有帮助！

查看原文

我的6.4千美元本地LLM服务器的费用分析

相似文章

降低LLM API成本的10种方法

高端私有本地 LLM 方案真的值得吗？

我对LLM代码风格与Token成本的发现

如何为7人规模的企业搭建本地大语言模型服务器？

当前LLM成本为何不可持续

提交意见反馈