质量差距不到2%但成本相差10倍:在相同的工具调用任务上测试5个模型[D]
摘要
一位开发者在工具调用任务上测试了五个AI模型,发现廉价模型的表现与Opus等昂贵模型相差不到2%,腾讯混元(Tencent's Hunyuan)成本低于1.50美元,而Opus为15美元,通过将简单任务路由到廉价模型,每日成本从40美元降至9美元。
我基于MCP运行一个文件管理Agent已经几个月了。它处理模块重命名、导入更新、验证脚手架和测试执行。典型的会话包含60到120个工具调用。整个系统一直由Opus 4.7驱动,因为我从未质疑过,直到我查看了四月的账单。于是我设置了一个对比。在一个15k行Python项目上执行8个重构任务,使用相同的MCP工具、相同的系统提示、相同的仓库状态,五个模型。任务包括“重命名此模块并修复所有导入”和“为这12个端点添加输入验证”。常规清理,不需要深层架构思考。我关心的指标是首次尝试工具调用成功率:模型是否能在第一次尝试就产生一个无解析错误的有效函数调用?在昂贵端,Opus 4.7在500多次调用中达到约98%到99%,完成所有8个任务成本接近15美元。GPT 5质量相近,成本约11美元。廉价层级让我惊讶。Sonnet 4.6约96%,成本约4美元。DeepSeek V4 Pro在类似水平,成本不到2美元。而腾讯混元Hy3预览版在成本不到1.50美元的情况下,与Opus的差距在几个百分点之内。最贵和最便宜模型之间差距不到两个百分点,而在这些任务中,失败的调用只需重试即可。老实说,结果并不令人激动。我预期会有更大的可靠性差距。我实际上花了半天时间调试一个我以为是某个MoE模型的质量问题,最后才发现是系统提示中的工具调用模式配置错误。每次调用都产生格式错误的JSON,我却责怪模型。经典错误。该模型是一个295B参数的MoE,每token激活21B参数,所以完整BF16权重约为590GB。官方部署路径是vLLM或SGLang,运行在类似8块H200级别GPU上,这绝不是家庭实验室的范畴。但4位量化权重约为165GB,刚好适合Apple Silicon的统一内存。我买了一台翻新的M2 Ultra Mac Studio,192GB内存,约5500美元,并安装了来自Hugging Face的社区MLX移植版。在折腾了几个小时的conda环境后,它终于开始生成文本。吞吐量为每秒5到12个token,取决于上下文长度。听起来很慢,但agent循环的大部分实际时间都花在等待工具执行上,所以实际上模型很少成为瓶颈。我的编排器现在将常规文件操作和简单重构路由到本地模型或DeepSeek API,取决于我是否需要更快的生成。任何失败两次重试或涉及跨模块边界的任务都会被升级到云端的Opus。每日支出从大约40美元降到了9美元左右,而且随着我将更多工作转移到本地机器(边际成本仅为电费),这个数字还在不断缩小。一个明显的失败案例是嵌套装饰器重构。三层包装器交互,模型需要跨多个推理步骤保持复杂状态。它只是循环,消耗token而不收敛,直到升级机制介入,Opus第一次尝试就成功了。我此后一致观察到:任何需要跨不熟悉模式进行持续推理或调试细微类型不匹配的任务,仍然需要昂贵模型。根据OpenRouter的公开排名,该模型发布后在工具调用量上排名第一,这与我的经验相符,函数调用似乎是其首要设计目标。我想尝试8位MLX量化,一旦有人发布干净的构建版本,主要是想看看在更高精度下跨文件推理的弱点是否会缩小。升级启发式算法也在不断迭代中。仅凭重试次数无法识别模型自信但错误的情况,而非明显失败的情况,我还没有找到清晰的信号。
相似文章
我的AI代理账单从每周200美元降到40美元,当我停止在每个子任务上都使用Opus时
一位开发者分享如何通过将简单子任务路由到更便宜的模型(如DeepSeek V4 Pro和腾讯混元),同时保留复杂推理任务给Opus 4.7,将AI代理的每周成本从200美元降至40美元,且大部分工作质量相近。
编码中90%的枯燥任务基本上已被解决
一位开发者分享使用廉价AI模型(DeepSeek v4、Hunyuan Hy3预览版)自动化90%编码任务的经验,而Opus则用于更难的10%,强调了成本和延迟权衡。
@elonmusk: 试试 Composer 2.5
Composer 2.5 在 CursorBench 上达到 63.2%,每个任务仅需 $0.55,几乎以 20 倍低的成本匹配顶级模型。
将我的智能体拆分为廉价路由模型和高级合成模型,费用降低了约75%
一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型(GPT-OSS 120B)用于工具选择,以及高级模型(gpt-5.4)用于合成,成本降低了约78%,同时保持了输出质量。
@cryptopunk7213: 这真是天才。在AI模型越来越昂贵且日益丰富的世界里,这样的产品简直是梦想中的AI护城河……
Factory Router 为每个任务自动选择最佳AI模型,声称能在保持前沿性能的同时削减25%的成本,对大企业来说是一款前景广阔的工具。