我们需要一个工具基准排行榜

Reddit r/AI_Agents 2026/06/30 08:21 工具

摘要

本文主张需要一个基准排行榜，用于比较AI模型工具（例如KimiCode、OpenCode和Codex），而不仅仅是模型本身，并提出了一个代码库，用于测试模型+工具组合的成本、运行时间、token使用量和得分。

这个问题一直萦绕在我脑海里：如果我在用Kimi模型，那么与它交互时，KimiCode真的比OpenCode更好吗？如果OpenCode中一个低智能的GPT模型表现得比Codex中的同一个模型更好呢？如果“最佳”设置不仅仅是关于模型，还关乎包裹在它周围的工具呢？如今我们有大量的AI模型排行榜，但几乎没有比较使用这些模型的工具的内容。这就是为什么我创建了这个代码库：（在评论区下方）想法很简单：测试并发布每种组合的结果：模型智能/推理水平、工具、基准测试、成本、运行时间、token使用量。由此，我们可以开始回答诸如：哪个工具从同一个模型获得最好的分数？哪个工具消耗最少的token？这个代码库是由Codex上的GPT-5.5 xhigh一次性生成的，不过我自己太穷了，无法运行全部基准测试，哈哈。欢迎fork、吐槽、彻底否定这个想法，或者构建更好的版本。我主要只是想引出这个想法：工具基准测试是氛围编码/编码代理评估中一个未被探索的部分。

查看原文

相似文章

观察：每个模型的最佳代理框架将由模型开发者自身提供

Reddit r/AI_Agents

讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳，而第三方框架可能导致表现不佳，尽管基准测试成绩出色。文中引用了Claude Code（针对Claude模型）和Codex（针对GPT模型）等示例。

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…

X AI KOLs Timeline

本文深入解释AI领域评测框架（Harness）的重要性，分析DeepSeek自建Harness团队的战略意义，并对比了开源lm-evaluation-harness与自建系统的区别。

我们需要一个工具基准排行榜

相似文章

观察：每个模型的最佳代理框架将由模型开发者自身提供

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…

@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755

你的框架辜负了你的智能体，但却没有基准来证明这一点

停止在不公开执行框架的情况下比较LLM智能体

提交意见反馈

相似文章

观察：每个模型的最佳代理框架将由模型开发者自身提供

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。 在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。 行业标准品是 EleutherAI 的 lm-e…

@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755

你的框架辜负了你的智能体，但却没有基准来证明这一点

停止在不公开执行框架的情况下比较LLM智能体

提交意见反馈

@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…