Apple Silicon 的成本高于 OpenRouter
摘要
每百万 token 的成本对比:在 Apple Silicon 硬件上本地运行 LLM 与通过 OpenRouter 使用云推理的成本比较,发现本地推理通常贵 3 倍且更慢。
暂无内容
查看缓存全文
缓存时间: 2026/05/17 12:47
# Apple Silicon 比 OpenRouter 更贵
来源:https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html
## 离线智能编码第3部分:Apple Silicon 比 OpenRouter 更贵
### 发布于 2026-05-17
Apple Silicon 比 OpenRouter 更贵。电子表格展示了每秒 token 数和成本,从而得出每百万 token 的总成本。
Apple Silicon 比 OpenRouter 更贵。
在负载约 50-100 瓦、电费约 0.20 美元/千瓦时的情况下,我的 M5 MacBook Pro 每小时将花费几美分。加速折旧(如果有的话)——由于设备寿命缩短产生的折旧——会比电费更贵。以每秒几十个 token 的速度计算,摊销成本约为每百万 token 1.50 美元。而 OpenRouter 上同类模型的价格仅为三分之一,速度快约两倍。
## 电费
在弗吉尼亚北部,我上一张电费账单的价格是每千瓦时 0.18 美元。我们四舍五入到 0.20 美元/千瓦时。
EIA 数据显示,2025 年美国居民平均电价约为 0.1730 美元/千瓦时。https://www.eia.gov/electricity/monthly/epm_table_grapher.php?t=table_5_03
按 50-100 瓦、0.18 美元/千瓦时计算,每小时电费为 0.009 或 0.018 美元。即每小时 0.02 美元。**全天 100% 运行推理的电费仅为每天 0.48 美分。**
## 硬件
一台 14 英寸 MBP,配备 M5 Max 和 64GB 内存,目前在苹果官网标价 4299 美元。128GB 内存会更贵,但 64GB 足以运行 Gemma 4 31b 这类模型,其性能已接近 Anthropic Sonnet 的水平。
关于成本分摊,我们假设这台硬件能使用 3 年、5 年或 10 年。每年的成本分别为 1433 美元、860 美元和 430 美元。
对应 3 年、5 年和 10 年,每小时成本如下:
- 0.16358 美元
- 0.09815 美元
- 0.04908 美元
考虑到使用寿命,我认为正常使用 5 年是合理的估计。7 年或 10 年也很有可能。如果推理负载达到极限,3 年也可能是合理的估计。
## Token 经济模型
关键问题是本地模型每小时能产出多少 token。我在 M5 Max 上测试像 Gemma4:31b 这样正经模型时,速度大约在每秒 10-40 token。按每秒 10 token 计算,每小时就是 36000 token。
以 0.18 美元/千瓦时的电费,在 3-10 年的使用寿命中,每百万 token 的价格在最高端为 1.61 美元至 4.79 美元。
按每秒 40 token 计算,每小时 144000 token,则每百万 token 的成本为 0.40 美元至 1.20 美元。
对于 Apple Silicon 来说,硬件成本占主导。
OpenRouter 上 Gemma4 31b 的价格约为每百万 token 38-50 美分。这意味着在乐观情况下(50 瓦、40 token/秒、10 年),Pro Max 与 OpenRouter 一样便宜。在悲观情况下(100 瓦、3 年、10 token/秒),Pro Max 的成本是 OpenRouter 的 10 倍。从会计角度来看,我认为 Pro Max 本地推理的每百万 token 成本大约是 OpenRouter 的 3 倍。
## 结论
不过,对大多数场景而言,推理速度是最大的因素。本地推理比云端推理慢。OpenRouter 上的某些 Gemma 4 提供商能达到每秒 60-70 token,比我在 Pro Max 上看到的(约 10-20 token/秒)快 3-7 倍。对于使用工作笔记本的人类员工来说,他们的薪资成本大约是本地生成 token 成本的 1000 倍。在这种情况下,把资金投入 Anthropic 更合理。
消费级设备能运行接近 Anthropic Sonnet 性能的模型,这仍然令人惊叹。
相似文章
本地模型优化(3 分钟阅读)
本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。
@julien_c:Apple Silicon 是本地AI之王吗?
关于Apple Silicon是否是运行本地AI模型的最佳硬件的讨论,引用了一篇相关文章或讨论串。
@sakurayukiai: 关于'免费'本地推理,我最喜欢的细节是折旧计算。如果将一台4000美元的Mac分摊到5年,运...
一条推文指出,将一台4000美元的Mac分摊到5年使用时,运行一个31B模型的成本为每百万Token 1.50美元,这使得本地推理相比更便宜的API选项成为一种奢侈品。
当大型语言模型提供商停止补贴时会发生什么?
一位开发者分享了从补贴的OpenAI Codex切换到OpenRouter后AI推理成本的经历,引发了关于当前LLM定价模式可持续性的讨论,以及可能转向开源自托管的趋势。
苹果发布全新 Apple Silicon 端侧推理引擎
苹果在 WWDC 上发布了 CoreAI,这是一款适用于 Apple Silicon 的全新端侧推理引擎,将取代 CoreML,并通过优化推理支持多达 200 亿参数的更大模型,重点面向手机和平板设备。