本地模型优化(3 分钟阅读)
摘要
本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。
本地模型能够以低得多的成本执行许多顶级云端模型也能完成的任务。
查看缓存全文
缓存时间: 2026/05/13 00:22
# 本地最大化(Localmaxxing)
来源:https://tomtunguz.com/localmaxxing
随着人工智能推理需求的爆炸式增长,我将对我的小电脑提出更高的要求。
高多少呢?
在过去五周里,我一直在使用本地模型,看看在不依赖云端的万亿参数大模型的情况下,我能完成多少日常工作。答案是:一半。
| 类别 | 计数 | 占比 | 示例 |
| :--- | :--- | :--- | :--- |
| 其他 | 521 | 35.3% | 针对非结构化请求的兜底类别 |
| 日程安排 | 254 | 17.2% | 检查可用性、提议会议时间 |
| 市场调研 | 192 | 13.0% | 竞品分析、融资数据 |
| 摘要生成 | 184 | 12.4% | 转录稿审查、视频摘要 |
| 邮件与收件处理 | 170 | 11.5% | 起草回复、跟进、转发 |
| 工程开发 | 147 | 9.9% | 调试脚本、API 修复、CLI 任务 |
| 行政管理 | 10 | 0.7% | 差旅、报销、费用管理 |
如果你将这 1400 个任务按类别划分,其中一半可以在本地 350 亿参数模型上成功完成。邮件与收件处理、日程安排、摘要生成和行政管理共计 618 个任务(占 41.8%)。市场调研和工程开发则大致在简单任务(数据查找、脚本修复)和复杂任务(多源综合、架构决策)之间各占一半。这样我们就达到了 50%。
使用本地模型有很多理由:隐私、成本、资产贬值[^1]。
但现实中,真正重要的只有一个:延迟。
今天早上我进行了一场正面基准测试。八个智能体(Agent)任务,相同的提示词,两个模型均已预热。在我的 MacBook Pro M5 上运行 Qwen 3.6 35B-A3B-4bit,对比通过 API 调用的 Claude Opus 4.5。
Qwen 35B 本地 vs Opus 4.5 云端:平均耗时 2.8 秒 vs 5.8 秒,速度提升 2.1 倍 (https://res.cloudinary.com/dzawgnnlr/image/upload/q_auto,f_auto/hilh2r0rbei20utdqyhj)
本地模型并不更“聪明”。在推理基准测试中,Opus 4.5 的得分高出约 20%。本地模型落后于前沿模型约 3-4 个月 (https://tomtunguz.com/qwen-local-models/),对于大规模复杂任务来说,这一差距很重要。但对于常规的智能体任务,这通常无关紧要。
Opus 在结构和润色方面胜出:项目符号、标题、更整洁的代码。Qwen 在简洁性方面胜出,通常 token 数量只有一半。我逐条并排阅读了所有输出结果,两者都正确完成了任务。对于输出将馈送到另一个系统的智能体任务而言,简练是一种优势。
本地最大化(Localmaxxing),即推动更多推理任务到本地模型执行,是对 token 最大化(Tokenmaxxing)(https://tomtunguz.com/tokenmaxxing/) 的必然回应。随着本地模型性能提升并与前沿模型缩小差距,越来越多的用户将把工作负载转移到自己的硬件上。
如果我的一半工作能在笔记本电脑上快两倍完成,我会毫不犹豫地选择这种权衡。我的小电脑即将证明它的价值。
[^1]: https://tomtunguz.com/localmaxxing#fn:1
相似文章
在配备 24GB 内存的 M4 芯片上运行本地模型
指南介绍了如何使用 LM Studio、Ollama 等工具,在拥有 24GB 内存的 M4 MacBook 上运行 Qwen 3.5-9B 等本地 AI 模型,并提供了优化性能的具体配置建议。
本地模型是否比预期更快变得“足够好”?
这篇文章讨论了本地AI模型在日常任务中日益增长的可行性,暗示了向混合架构的转变,这种架构优化成本和延迟,而不是仅仅依赖前沿的云模型。
本地 AI 应成为常态
本文指出,出于隐私和可靠性方面的顾虑,不应依赖云端托管的 AI API,并倡导采用设备端 AI 处理模式,文中以一款利用 Apple 本地模型 API 的原生 iOS 应用为例进行了说明。
@remilouf: 在 @julien_c 的推文之后,我买了一台配备 128B 统一内存的 MacBook Pro,并开始将 Qwen3.6 作为我的日常驱…
作者分享了在配备 128GB 统一内存的 MacBook Pro 上运行 Qwen3.6 模型的经验,称赞了苹果硬件在本地 AI 推理方面的效率。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。