质量差距不到2%但成本相差10倍:在相同的工具调用任务上测试5个模型[D]

Reddit r/MachineLearning 新闻

摘要

一位开发者在工具调用任务上测试了五个AI模型,发现廉价模型的表现与Opus等昂贵模型相差不到2%,腾讯混元(Tencent's Hunyuan)成本低于1.50美元,而Opus为15美元,通过将简单任务路由到廉价模型,每日成本从40美元降至9美元。

我基于MCP运行一个文件管理Agent已经几个月了。它处理模块重命名、导入更新、验证脚手架和测试执行。典型的会话包含60到120个工具调用。整个系统一直由Opus 4.7驱动,因为我从未质疑过,直到我查看了四月的账单。于是我设置了一个对比。在一个15k行Python项目上执行8个重构任务,使用相同的MCP工具、相同的系统提示、相同的仓库状态,五个模型。任务包括“重命名此模块并修复所有导入”和“为这12个端点添加输入验证”。常规清理,不需要深层架构思考。我关心的指标是首次尝试工具调用成功率:模型是否能在第一次尝试就产生一个无解析错误的有效函数调用?在昂贵端,Opus 4.7在500多次调用中达到约98%到99%,完成所有8个任务成本接近15美元。GPT 5质量相近,成本约11美元。廉价层级让我惊讶。Sonnet 4.6约96%,成本约4美元。DeepSeek V4 Pro在类似水平,成本不到2美元。而腾讯混元Hy3预览版在成本不到1.50美元的情况下,与Opus的差距在几个百分点之内。最贵和最便宜模型之间差距不到两个百分点,而在这些任务中,失败的调用只需重试即可。老实说,结果并不令人激动。我预期会有更大的可靠性差距。我实际上花了半天时间调试一个我以为是某个MoE模型的质量问题,最后才发现是系统提示中的工具调用模式配置错误。每次调用都产生格式错误的JSON,我却责怪模型。经典错误。该模型是一个295B参数的MoE,每token激活21B参数,所以完整BF16权重约为590GB。官方部署路径是vLLM或SGLang,运行在类似8块H200级别GPU上,这绝不是家庭实验室的范畴。但4位量化权重约为165GB,刚好适合Apple Silicon的统一内存。我买了一台翻新的M2 Ultra Mac Studio,192GB内存,约5500美元,并安装了来自Hugging Face的社区MLX移植版。在折腾了几个小时的conda环境后,它终于开始生成文本。吞吐量为每秒5到12个token,取决于上下文长度。听起来很慢,但agent循环的大部分实际时间都花在等待工具执行上,所以实际上模型很少成为瓶颈。我的编排器现在将常规文件操作和简单重构路由到本地模型或DeepSeek API,取决于我是否需要更快的生成。任何失败两次重试或涉及跨模块边界的任务都会被升级到云端的Opus。每日支出从大约40美元降到了9美元左右,而且随着我将更多工作转移到本地机器(边际成本仅为电费),这个数字还在不断缩小。一个明显的失败案例是嵌套装饰器重构。三层包装器交互,模型需要跨多个推理步骤保持复杂状态。它只是循环,消耗token而不收敛,直到升级机制介入,Opus第一次尝试就成功了。我此后一致观察到:任何需要跨不熟悉模式进行持续推理或调试细微类型不匹配的任务,仍然需要昂贵模型。根据OpenRouter的公开排名,该模型发布后在工具调用量上排名第一,这与我的经验相符,函数调用似乎是其首要设计目标。我想尝试8位MLX量化,一旦有人发布干净的构建版本,主要是想看看在更高精度下跨文件推理的弱点是否会缩小。升级启发式算法也在不断迭代中。仅凭重试次数无法识别模型自信但错误的情况,而非明显失败的情况,我还没有找到清晰的信号。
查看原文

相似文章

编码中90%的枯燥任务基本上已被解决

Reddit r/singularity

一位开发者分享使用廉价AI模型(DeepSeek v4、Hunyuan Hy3预览版)自动化90%编码任务的经验,而Opus则用于更难的10%,强调了成本和延迟权衡。

@elonmusk: 试试 Composer 2.5

X AI KOLs Following

Composer 2.5 在 CursorBench 上达到 63.2%,每个任务仅需 $0.55,几乎以 20 倍低的成本匹配顶级模型。