Apple Silicon 的成本高于 OpenRouter

Hacker News Top 新闻

摘要

每百万 token 的成本对比:在 Apple Silicon 硬件上本地运行 LLM 与通过 OpenRouter 使用云推理的成本比较,发现本地推理通常贵 3 倍且更慢。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/17 12:47

# Apple Silicon 比 OpenRouter 更贵 来源:https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html ## 离线智能编码第3部分:Apple Silicon 比 OpenRouter 更贵 ### 发布于 2026-05-17 Apple Silicon 比 OpenRouter 更贵。电子表格展示了每秒 token 数和成本,从而得出每百万 token 的总成本。 Apple Silicon 比 OpenRouter 更贵。 在负载约 50-100 瓦、电费约 0.20 美元/千瓦时的情况下,我的 M5 MacBook Pro 每小时将花费几美分。加速折旧(如果有的话)——由于设备寿命缩短产生的折旧——会比电费更贵。以每秒几十个 token 的速度计算,摊销成本约为每百万 token 1.50 美元。而 OpenRouter 上同类模型的价格仅为三分之一,速度快约两倍。 ## 电费 在弗吉尼亚北部,我上一张电费账单的价格是每千瓦时 0.18 美元。我们四舍五入到 0.20 美元/千瓦时。 EIA 数据显示,2025 年美国居民平均电价约为 0.1730 美元/千瓦时。https://www.eia.gov/electricity/monthly/epm_table_grapher.php?t=table_5_03 按 50-100 瓦、0.18 美元/千瓦时计算,每小时电费为 0.009 或 0.018 美元。即每小时 0.02 美元。**全天 100% 运行推理的电费仅为每天 0.48 美分。** ## 硬件 一台 14 英寸 MBP,配备 M5 Max 和 64GB 内存,目前在苹果官网标价 4299 美元。128GB 内存会更贵,但 64GB 足以运行 Gemma 4 31b 这类模型,其性能已接近 Anthropic Sonnet 的水平。 关于成本分摊,我们假设这台硬件能使用 3 年、5 年或 10 年。每年的成本分别为 1433 美元、860 美元和 430 美元。 对应 3 年、5 年和 10 年,每小时成本如下: - 0.16358 美元 - 0.09815 美元 - 0.04908 美元 考虑到使用寿命,我认为正常使用 5 年是合理的估计。7 年或 10 年也很有可能。如果推理负载达到极限,3 年也可能是合理的估计。 ## Token 经济模型 关键问题是本地模型每小时能产出多少 token。我在 M5 Max 上测试像 Gemma4:31b 这样正经模型时,速度大约在每秒 10-40 token。按每秒 10 token 计算,每小时就是 36000 token。 以 0.18 美元/千瓦时的电费,在 3-10 年的使用寿命中,每百万 token 的价格在最高端为 1.61 美元至 4.79 美元。 按每秒 40 token 计算,每小时 144000 token,则每百万 token 的成本为 0.40 美元至 1.20 美元。 对于 Apple Silicon 来说,硬件成本占主导。 OpenRouter 上 Gemma4 31b 的价格约为每百万 token 38-50 美分。这意味着在乐观情况下(50 瓦、40 token/秒、10 年),Pro Max 与 OpenRouter 一样便宜。在悲观情况下(100 瓦、3 年、10 token/秒),Pro Max 的成本是 OpenRouter 的 10 倍。从会计角度来看,我认为 Pro Max 本地推理的每百万 token 成本大约是 OpenRouter 的 3 倍。 ## 结论 不过,对大多数场景而言,推理速度是最大的因素。本地推理比云端推理慢。OpenRouter 上的某些 Gemma 4 提供商能达到每秒 60-70 token,比我在 Pro Max 上看到的(约 10-20 token/秒)快 3-7 倍。对于使用工作笔记本的人类员工来说,他们的薪资成本大约是本地生成 token 成本的 1000 倍。在这种情况下,把资金投入 Anthropic 更合理。 消费级设备能运行接近 Anthropic Sonnet 性能的模型,这仍然令人惊叹。

相似文章

本地模型优化(3 分钟阅读)

TLDR AI

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。

苹果发布全新 Apple Silicon 端侧推理引擎

Reddit r/LocalLLaMA

苹果在 WWDC 上发布了 CoreAI,这是一款适用于 Apple Silicon 的全新端侧推理引擎,将取代 CoreML,并通过优化推理支持多达 200 亿参数的更大模型,重点面向手机和平板设备。