质量差距不到2%但成本相差10倍：在相同的工具调用任务上测试5个模型[D]

Reddit r/MachineLearning 2026/05/20 16:25 新闻

model-comparison tool-calling cost-analysis agent mcp local-model quantization

摘要

一位开发者在工具调用任务上测试了五个AI模型，发现廉价模型的表现与Opus等昂贵模型相差不到2%，腾讯混元（Tencent's Hunyuan）成本低于1.50美元，而Opus为15美元，通过将简单任务路由到廉价模型，每日成本从40美元降至9美元。

我基于MCP运行一个文件管理Agent已经几个月了。它处理模块重命名、导入更新、验证脚手架和测试执行。典型的会话包含60到120个工具调用。整个系统一直由Opus 4.7驱动，因为我从未质疑过，直到我查看了四月的账单。于是我设置了一个对比。在一个15k行Python项目上执行8个重构任务，使用相同的MCP工具、相同的系统提示、相同的仓库状态，五个模型。任务包括“重命名此模块并修复所有导入”和“为这12个端点添加输入验证”。常规清理，不需要深层架构思考。我关心的指标是首次尝试工具调用成功率：模型是否能在第一次尝试就产生一个无解析错误的有效函数调用？在昂贵端，Opus 4.7在500多次调用中达到约98%到99%，完成所有8个任务成本接近15美元。GPT 5质量相近，成本约11美元。廉价层级让我惊讶。Sonnet 4.6约96%，成本约4美元。DeepSeek V4 Pro在类似水平，成本不到2美元。而腾讯混元Hy3预览版在成本不到1.50美元的情况下，与Opus的差距在几个百分点之内。最贵和最便宜模型之间差距不到两个百分点，而在这些任务中，失败的调用只需重试即可。老实说，结果并不令人激动。我预期会有更大的可靠性差距。我实际上花了半天时间调试一个我以为是某个MoE模型的质量问题，最后才发现是系统提示中的工具调用模式配置错误。每次调用都产生格式错误的JSON，我却责怪模型。经典错误。该模型是一个295B参数的MoE，每token激活21B参数，所以完整BF16权重约为590GB。官方部署路径是vLLM或SGLang，运行在类似8块H200级别GPU上，这绝不是家庭实验室的范畴。但4位量化权重约为165GB，刚好适合Apple Silicon的统一内存。我买了一台翻新的M2 Ultra Mac Studio，192GB内存，约5500美元，并安装了来自Hugging Face的社区MLX移植版。在折腾了几个小时的conda环境后，它终于开始生成文本。吞吐量为每秒5到12个token，取决于上下文长度。听起来很慢，但agent循环的大部分实际时间都花在等待工具执行上，所以实际上模型很少成为瓶颈。我的编排器现在将常规文件操作和简单重构路由到本地模型或DeepSeek API，取决于我是否需要更快的生成。任何失败两次重试或涉及跨模块边界的任务都会被升级到云端的Opus。每日支出从大约40美元降到了9美元左右，而且随着我将更多工作转移到本地机器（边际成本仅为电费），这个数字还在不断缩小。一个明显的失败案例是嵌套装饰器重构。三层包装器交互，模型需要跨多个推理步骤保持复杂状态。它只是循环，消耗token而不收敛，直到升级机制介入，Opus第一次尝试就成功了。我此后一致观察到：任何需要跨不熟悉模式进行持续推理或调试细微类型不匹配的任务，仍然需要昂贵模型。根据OpenRouter的公开排名，该模型发布后在工具调用量上排名第一，这与我的经验相符，函数调用似乎是其首要设计目标。我想尝试8位MLX量化，一旦有人发布干净的构建版本，主要是想看看在更高精度下跨文件推理的弱点是否会缩小。升级启发式算法也在不断迭代中。仅凭重试次数无法识别模型自信但错误的情况，而非明显失败的情况，我还没有找到清晰的信号。

查看原文

质量差距不到2%但成本相差10倍：在相同的工具调用任务上测试5个模型[D]

相似文章

我的AI代理账单从每周200美元降到40美元，当我停止在每个子任务上都使用Opus时

@DeRonin_: 我的整个AI栈现在都换成中国产品了，便宜87%。相同收入，按任务替换：1. 推理/后端大脑 Opus 4.8 → Kimi…

编码中90%的枯燥任务基本上已被解决

我对同一项目测试了8个AI编程代理。结果：四分之一个可用于生产，总成本1.94美元。

@elonmusk: 试试 Composer 2.5

提交意见反馈