你真的能用本地模型替代付费模型吗?
摘要
一位社区成员认为,尽管取得了令人瞩目的进展,但在复杂的代理任务上,本地开源模型仍然远远落后于前沿闭源模型,并警告不要过度吹嘘替代的说法。
长期潜水的用户,作为一个真心热爱这个社区并且自己运行许多本地模型的人,我这么说。我从早期的GPT和LLaMA时代就开始使用LLM了。显然,模型已经取得了令人难以置信的进步。如今的本地/开源模型比几个月前我们拥有的好得多。但我也认为,社区养成了一种奇怪的习惯,即大肆夸大这些模型与前沿闭源模型的接近程度。我们现在有来自DeepSeek、MiniMax、GLM、Kimi、MiMo等公司的非常大的开源模型,几乎没有人能在家里运行。然后还有可访问的中型模型、Flash变体以及能力日益增强的小型模型。而且每周都会有一个帖子说某个27B的Qwen模型“取代了Claude”,或者“基本上就是家庭版SOTA”。我认为这甚至*接近*事实都算不上。这些模型很有用。其中一些在它们的大小上确实令人印象深刻。有些在本地工具调用、提取、总结、私有数据任务和特定微调方面确实非常出色。但与用于严肃代理工作的前沿闭源模型相比,它们仍然落后好几代。显然基准测试会骗人,但它们仍然让人觉得一个27B的密集模型或200B的MoE模型 somehow 与一个数万亿参数的前沿模型处于同一水平。但当你真正尝试在真实的编码环境中使用它,或者在一个大型仓库上,或者在一个多步骤任务中,模型需要推断意图、保持上下文、修正自己的错误并做出判断时。那时它就失败了。一个前沿模型只需几分钟和几次补丁就能完成的任务,对于本地模型来说可能需要令人沮丧的大量引导、重试、纠正和监控。长周期复杂任务正是这些模型真正吃力之处。所以问题是,你真的相信任何本地模型都能取代前沿模型用于严肃的代理工作吗?还是大家主要只是出于隐私和动手操作(或者仅仅是为了角色扮演)而来?
相似文章
本地模型是否比预期更快变得“足够好”?
这篇文章讨论了本地AI模型在日常任务中日益增长的可行性,暗示了向混合架构的转变,这种架构优化成本和延迟,而不是仅仅依赖前沿的云模型。
@ClementDelangue: 叙事矛盾:根据@Stanford的研究,本地模型能够准确回答71.3%的真实世界聊天和推理问题…
斯坦福大学研究表明,本地模型现在能准确回答71.3%的真实世界查询,而2023年仅为23.2%,这表明大多数任务不需要前沿模型,未来将是多模型模式,多数工作负载由本地、开源模型承担。
专注打磨,推动本地模型
本文批评了当前用于编程助手的本地AI模型现状,认为虽然可运行性有所改善,但由于缺少工具参数流式传输等功能以及推理引擎间的过度碎片化,用户体验大打折扣,远不如使用托管API那般精致。
开源模型落后了多少?(17分钟阅读)
LessWrong上的一篇分析,探讨了开源与专有AI模型之间的性能差距。
所有本地模型都很差。即使是DeepseekV4也只能处理指令。请证明我错了
一位用户分享了对本地AI模型的挫败感,尽管在Vast.ai试用了花费超过400美元,却发现只有Claude Opus能有效处理复杂任务,如分析260页的PDF和Dropbox数据。