我们需要一个工具基准排行榜

Reddit r/AI_Agents 工具

摘要

本文主张需要一个基准排行榜,用于比较AI模型工具(例如KimiCode、OpenCode和Codex),而不仅仅是模型本身,并提出了一个代码库,用于测试模型+工具组合的成本、运行时间、token使用量和得分。

这个问题一直萦绕在我脑海里:如果我在用Kimi模型,那么与它交互时,KimiCode真的比OpenCode更好吗?如果OpenCode中一个低智能的GPT模型表现得比Codex中的同一个模型更好呢?如果“最佳”设置不仅仅是关于模型,还关乎包裹在它周围的工具呢?如今我们有大量的AI模型排行榜,但几乎没有比较使用这些模型的工具的内容。这就是为什么我创建了这个代码库:(在评论区下方)想法很简单:测试并发布每种组合的结果:模型智能/推理水平、工具、基准测试、成本、运行时间、token使用量。由此,我们可以开始回答诸如:哪个工具从同一个模型获得最好的分数?哪个工具消耗最少的token?这个代码库是由Codex上的GPT-5.5 xhigh一次性生成的,不过我自己太穷了,无法运行全部基准测试,哈哈。欢迎fork、吐槽、彻底否定这个想法,或者构建更好的版本。我主要只是想引出这个想法:工具基准测试是氛围编码/编码代理评估中一个未被探索的部分。
查看原文

相似文章

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。