DeepSWE基准测试提醒:费用按任务计费,而非整个运行流程。
摘要
DeepSWE基准测试的费用是按任务计费,而非整个运行流程。运行Mimo V2.5 Pro这类模型,完整运行一次约需225美元,而Mimo V2.5非专业版约需7.15美元。用户在选择运行昂贵模型前应了解这一点。
我原本在运行Deep SWE基准测试,看到Mimo V2.5 Pro标价1.99美元,以为运行Mimo V2.5(非专业版)会更便宜,低于1.99美元。但实际上,它不像Artificial Analysis那样按总量计费,你需要将单价乘以总任务数(共113个任务)。这意味着Mimo V2.5 Pro完整运行一次实际约需225美元,GPT 5.5 medium总计约264美元。幸运的是,根据Mimo V2.5(非专业版)前14个任务约0.89美元的成本来看,完整运行大约需要7.15美元,所以我仍打算让它继续运行。但如果你打算用更贵的模型运行该基准测试,请务必谨慎,因为一般观念中它是个便宜的测试。以下是基于已完成任务的项目估算:
### **截至目前(14个任务)— 总成本:0.89美元**
* **缓存命中(98.8%):** 1.535亿 token | 0.43美元
* **缓存未命中(1.2%):** 180万 token | 0.25美元
* **输出:** 72.3万 token | 0.20美元
### **预估(113个任务)— 总成本:约7.15美元**
* **缓存命中成本:** 3.47美元
* **缓存未命中成本:** 2.04美元
* **输出成本:** 1.64美元
相似文章
@seclink: 这款拥有120亿参数的模型采用统一的 Transformer 架构,能够高效处理原始的多模态输入,且仅需 16GB 内存即可运行,完美适配 MacBook Pro 等设备。 它在各项基准测试中表现卓越,例如在 GPQA Diamond 上…
一款120亿参数的多模态模型开源发布,采用统一Transformer架构,仅需16GB内存即可运行,在多项基准测试中表现优异,支持256K上下文窗口和140多种语言。
@Miles_Brundage: 重磅:Clear AVERI Pronunciation Guide Bench 上 SOTA 分数大幅提升,来自我的同事 Carly
Miles Brundage 宣布由同事 Carly 在 Clear AVERI Pronunciation Guide Bench 上实现了最先进(SOTA)分数的提升。
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
大模型价值之争 - DeepSeek V4 Pro vs MiMo-V2.5-Pro vs MiniMax M3
一场讨论,比较DeepSeek V4 Pro、MiMo-V2.5-Pro和MiniMax M3在本地或OpenRouter使用中的最佳性价比,重点关注代理和编码任务,并提及Hermes Agent和Qwen 3.6变体。
@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。