所有本地模型都很差。即使是DeepseekV4也只能处理指令。请证明我错了
摘要
一位用户分享了对本地AI模型的挫败感,尽管在Vast.ai试用了花费超过400美元,却发现只有Claude Opus能有效处理复杂任务,如分析260页的PDF和Dropbox数据。
我可以在本地电脑上花费2.5万到10万美元,把它当作业务支出。我就不细说了。但不行……这些模型就是很差。我试过了除1.6T DeepSeekv4之外的所有模型。也许如果人们觉得那个有用,我会在Vast.ai上试运行一个服务器。我觉得我让那些极度注重隐私的客户失望了。我已经尝试了一个多月,可能在Vast.ai服务器试用上花了超过400美元。我知道有些人用糟糕的35B模型获取天气和股票价格……我们有更复杂得多的事情。将260页的PDF文档与一个庞大的Dropbox数据结合。只有Opus成功了。也许我需要降低期望?也许我需要让Opus为大约500B的模型创建类似MCP/CLI的技能?
相似文章
本地模型是否已足够好用于AI会议记忆?
作者讨论了测试AI会议笔记工具,强调了Bluedot的可搜索上下文以及通过Claude MCP自然查询会议历史的价值,同时质疑本地模型是否能与云端工具相匹敌。
专注打磨,推动本地模型
本文批评了当前用于编程助手的本地AI模型现状,认为虽然可运行性有所改善,但由于缺少工具参数流式传输等功能以及推理引擎间的过度碎片化,用户体验大打折扣,远不如使用托管API那般精致。
'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。
对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明,没有单一模型在所有任务上占据优势;要实现最佳性能,需要采用多模型路由器,根据各模型的优势与弱点进行专门化使用。
DeepSeek刚刚戳破了美国AI泡沫。
DeepSeek的V4 Pro模型在定价上比GPT-5.5和Claude Opus等竞争对手低10-35倍,这表明随着'足够好'的模型以显著更低的成本压缩利润率,AI泡沫面临通缩压力。
你真的能用本地模型替代付费模型吗?
一位社区成员认为,尽管取得了令人瞩目的进展,但在复杂的代理任务上,本地开源模型仍然远远落后于前沿闭源模型,并警告不要过度吹嘘替代的说法。