DeepSWE基准测试提醒:费用按任务计费,而非整个运行流程。

Reddit r/singularity 新闻

摘要

DeepSWE基准测试的费用是按任务计费,而非整个运行流程。运行Mimo V2.5 Pro这类模型,完整运行一次约需225美元,而Mimo V2.5非专业版约需7.15美元。用户在选择运行昂贵模型前应了解这一点。

我原本在运行Deep SWE基准测试,看到Mimo V2.5 Pro标价1.99美元,以为运行Mimo V2.5(非专业版)会更便宜,低于1.99美元。但实际上,它不像Artificial Analysis那样按总量计费,你需要将单价乘以总任务数(共113个任务)。这意味着Mimo V2.5 Pro完整运行一次实际约需225美元,GPT 5.5 medium总计约264美元。幸运的是,根据Mimo V2.5(非专业版)前14个任务约0.89美元的成本来看,完整运行大约需要7.15美元,所以我仍打算让它继续运行。但如果你打算用更贵的模型运行该基准测试,请务必谨慎,因为一般观念中它是个便宜的测试。以下是基于已完成任务的项目估算: ### **截至目前(14个任务)— 总成本:0.89美元** * **缓存命中(98.8%):** 1.535亿 token | 0.43美元 * **缓存未命中(1.2%):** 180万 token | 0.25美元 * **输出:** 72.3万 token | 0.20美元 ### **预估(113个任务)— 总成本:约7.15美元** * **缓存命中成本:** 3.47美元 * **缓存未命中成本:** 2.04美元 * **输出成本:** 1.64美元
查看原文

相似文章

有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。