我们需要一个工具基准排行榜
摘要
本文主张需要一个基准排行榜,用于比较AI模型工具(例如KimiCode、OpenCode和Codex),而不仅仅是模型本身,并提出了一个代码库,用于测试模型+工具组合的成本、运行时间、token使用量和得分。
这个问题一直萦绕在我脑海里:如果我在用Kimi模型,那么与它交互时,KimiCode真的比OpenCode更好吗?如果OpenCode中一个低智能的GPT模型表现得比Codex中的同一个模型更好呢?如果“最佳”设置不仅仅是关于模型,还关乎包裹在它周围的工具呢?如今我们有大量的AI模型排行榜,但几乎没有比较使用这些模型的工具的内容。这就是为什么我创建了这个代码库:(在评论区下方)想法很简单:测试并发布每种组合的结果:模型智能/推理水平、工具、基准测试、成本、运行时间、token使用量。由此,我们可以开始回答诸如:哪个工具从同一个模型获得最好的分数?哪个工具消耗最少的token?这个代码库是由Codex上的GPT-5.5 xhigh一次性生成的,不过我自己太穷了,无法运行全部基准测试,哈哈。欢迎fork、吐槽、彻底否定这个想法,或者构建更好的版本。我主要只是想引出这个想法:工具基准测试是氛围编码/编码代理评估中一个未被探索的部分。
相似文章
观察:每个模型的最佳代理框架将由模型开发者自身提供
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
@AntCaveClub: Harness 到底是什么 Harness = 评测框架(Evaluation Harness)。 在AI领域,"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。 行业标准品是 EleutherAI 的 lm-e…
本文深入解释AI领域评测框架(Harness)的重要性,分析DeepSeek自建Harness团队的战略意义,并对比了开源lm-evaluation-harness与自建系统的区别。
@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755
AgentScope团队推出了PawBench,这是一个用于评估模型与代理框架综合性能的基准测试。通过对4,050个测试单元的分析,结果表明框架选择的影响堪比模型升级。
你的框架辜负了你的智能体,但却没有基准来证明这一点
本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。