@zhengyaojiang: 我们对7个前沿模型在三个类别的自动研究任务上进行了基准测试：ML工程、框架/提示工程以及……

X AI KOLs Following 2026/06/14 17:36 新闻

benchmarking autoresearch ml-engineering frontier-models ai-research open-source cost-constraint

摘要

研究人员对7个前沿模型在自动研究任务上进行了基准测试。Fable-5总体获胜，但开源模型Kimi-K2.7-Code在ML工程任务上超越了其他模型。

我们对7个前沿模型在三个类别的自动研究任务上进行了基准测试：ML工程、框架/提示工程和算法发现。即使在成本限制下，Fable-5也总体获胜，但在ML工程方面，开源模型Kimi-K2.7-Code超越了前沿模型。🧵(1/5) https://t.co/KzePspXd0Z

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:01

我们对7个前沿模型在3类自动研究任务上进行了基准测试：机器学习工程、工具/提示工程以及算法发现。

即使在成本约束下，Fable-5整体获胜，但机器学习工程任务上，开源模型Kimi-K2.7-Code超越了前沿模型。(1/5)

基准测试协议：

总体而言，Fable在自动研究方面是一个非常强大的模型。它在工具/提示工程和算法发现任务上表现突出。我们对算法发现的结果尤其感到惊讶，因为评估成本很低，更便宜的模型可以运行更多的步骤。(3/5)

令人惊讶的是，我们发现一个近期开源的模型Kimi-K2.7在机器学习工程上表现非常出色。而Fable的表现甚至不如Opus。这可能是因为成本膨胀，或者机器学习任务上设置了限制。(4/5)

总体而言，模型供应链在自动研究领域似乎将变得更加不稳定。

在Weco方面，我们将保持模型中立，并为用户提供更多选择。今天，我们刚刚增加了对Kimi-2.7的支持。(5/5)

如果你感兴趣：

是的，我相信@SakanaAILabs对此有一些研究。

在MLE上，Opus与GPT-5.5之间的差距非常小，所以我不认为这有什么特别的意义（可能是噪声）。

关于工具调优，这是一个合理的担忧。在开发过程中，它已经针对不同提供商的模型进行了调优。可能存在一些偏差，但很难判断哪个特定模型获得了优势。

是的，类似的内容在：https://arxiv.org/html/2605.21384v1…

谢谢Davide！虽然噪声很大，但我们运行了大量种子，聚合后的数字应该相当稳健。

我认为我们的基准测试与其他基准测试的一个关键区别在于我们是成本受限的。Claude模型通常相当昂贵，这导致迭代步骤较少。此外，Claude在某些与常规软件工程不同的细分任务上表现较弱。例如，直到Opus 4.6之前，它在MLE上表现都很差，并且在算法/启发式工程上仍然表现不佳。

是的，它在启发式工程和更传统的算法设计方面不太擅长。

谢谢！我无法分享具体任务，但大致是传统机器学习方向。

相似文章