本地模型优化(3 分钟阅读)

TLDR AI 新闻

摘要

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。

本地模型能够以低得多的成本执行许多顶级云端模型也能完成的任务。
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:22

# 本地最大化(Localmaxxing) 来源:https://tomtunguz.com/localmaxxing 随着人工智能推理需求的爆炸式增长,我将对我的小电脑提出更高的要求。 高多少呢? 在过去五周里,我一直在使用本地模型,看看在不依赖云端的万亿参数大模型的情况下,我能完成多少日常工作。答案是:一半。 | 类别 | 计数 | 占比 | 示例 | | :--- | :--- | :--- | :--- | | 其他 | 521 | 35.3% | 针对非结构化请求的兜底类别 | | 日程安排 | 254 | 17.2% | 检查可用性、提议会议时间 | | 市场调研 | 192 | 13.0% | 竞品分析、融资数据 | | 摘要生成 | 184 | 12.4% | 转录稿审查、视频摘要 | | 邮件与收件处理 | 170 | 11.5% | 起草回复、跟进、转发 | | 工程开发 | 147 | 9.9% | 调试脚本、API 修复、CLI 任务 | | 行政管理 | 10 | 0.7% | 差旅、报销、费用管理 | 如果你将这 1400 个任务按类别划分,其中一半可以在本地 350 亿参数模型上成功完成。邮件与收件处理、日程安排、摘要生成和行政管理共计 618 个任务(占 41.8%)。市场调研和工程开发则大致在简单任务(数据查找、脚本修复)和复杂任务(多源综合、架构决策)之间各占一半。这样我们就达到了 50%。 使用本地模型有很多理由:隐私、成本、资产贬值[^1]。 但现实中,真正重要的只有一个:延迟。 今天早上我进行了一场正面基准测试。八个智能体(Agent)任务,相同的提示词,两个模型均已预热。在我的 MacBook Pro M5 上运行 Qwen 3.6 35B-A3B-4bit,对比通过 API 调用的 Claude Opus 4.5。 Qwen 35B 本地 vs Opus 4.5 云端:平均耗时 2.8 秒 vs 5.8 秒,速度提升 2.1 倍 (https://res.cloudinary.com/dzawgnnlr/image/upload/q_auto,f_auto/hilh2r0rbei20utdqyhj) 本地模型并不更“聪明”。在推理基准测试中,Opus 4.5 的得分高出约 20%。本地模型落后于前沿模型约 3-4 个月 (https://tomtunguz.com/qwen-local-models/),对于大规模复杂任务来说,这一差距很重要。但对于常规的智能体任务,这通常无关紧要。 Opus 在结构和润色方面胜出:项目符号、标题、更整洁的代码。Qwen 在简洁性方面胜出,通常 token 数量只有一半。我逐条并排阅读了所有输出结果,两者都正确完成了任务。对于输出将馈送到另一个系统的智能体任务而言,简练是一种优势。 本地最大化(Localmaxxing),即推动更多推理任务到本地模型执行,是对 token 最大化(Tokenmaxxing)(https://tomtunguz.com/tokenmaxxing/) 的必然回应。随着本地模型性能提升并与前沿模型缩小差距,越来越多的用户将把工作负载转移到自己的硬件上。 如果我的一半工作能在笔记本电脑上快两倍完成,我会毫不犹豫地选择这种权衡。我的小电脑即将证明它的价值。 [^1]: https://tomtunguz.com/localmaxxing#fn:1

相似文章

本地 AI 应成为常态

Hacker News Top

本文指出,出于隐私和可靠性方面的顾虑,不应依赖云端托管的 AI API,并倡导采用设备端 AI 处理模式,文中以一款利用 Apple 本地模型 API 的原生 iOS 应用为例进行了说明。