你真的能用本地模型替代付费模型吗?

Reddit r/LocalLLaMA 新闻

摘要

一位社区成员认为,尽管取得了令人瞩目的进展,但在复杂的代理任务上,本地开源模型仍然远远落后于前沿闭源模型,并警告不要过度吹嘘替代的说法。

长期潜水的用户,作为一个真心热爱这个社区并且自己运行许多本地模型的人,我这么说。我从早期的GPT和LLaMA时代就开始使用LLM了。显然,模型已经取得了令人难以置信的进步。如今的本地/开源模型比几个月前我们拥有的好得多。但我也认为,社区养成了一种奇怪的习惯,即大肆夸大这些模型与前沿闭源模型的接近程度。我们现在有来自DeepSeek、MiniMax、GLM、Kimi、MiMo等公司的非常大的开源模型,几乎没有人能在家里运行。然后还有可访问的中型模型、Flash变体以及能力日益增强的小型模型。而且每周都会有一个帖子说某个27B的Qwen模型“取代了Claude”,或者“基本上就是家庭版SOTA”。我认为这甚至*接近*事实都算不上。这些模型很有用。其中一些在它们的大小上确实令人印象深刻。有些在本地工具调用、提取、总结、私有数据任务和特定微调方面确实非常出色。但与用于严肃代理工作的前沿闭源模型相比,它们仍然落后好几代。显然基准测试会骗人,但它们仍然让人觉得一个27B的密集模型或200B的MoE模型 somehow 与一个数万亿参数的前沿模型处于同一水平。但当你真正尝试在真实的编码环境中使用它,或者在一个大型仓库上,或者在一个多步骤任务中,模型需要推断意图、保持上下文、修正自己的错误并做出判断时。那时它就失败了。一个前沿模型只需几分钟和几次补丁就能完成的任务,对于本地模型来说可能需要令人沮丧的大量引导、重试、纠正和监控。长周期复杂任务正是这些模型真正吃力之处。所以问题是,你真的相信任何本地模型都能取代前沿模型用于严肃的代理工作吗?还是大家主要只是出于隐私和动手操作(或者仅仅是为了角色扮演)而来?
查看原文

相似文章

专注打磨,推动本地模型

Armin Ronacher

本文批评了当前用于编程助手的本地AI模型现状,认为虽然可运行性有所改善,但由于缺少工具参数流式传输等功能以及推理引擎间的过度碎片化,用户体验大打折扣,远不如使用托管API那般精致。