@zhengyaojiang: 我们对7个前沿模型在三个类别的自动研究任务上进行了基准测试:ML工程、框架/提示工程以及……
摘要
研究人员对7个前沿模型在自动研究任务上进行了基准测试。Fable-5总体获胜,但开源模型Kimi-K2.7-Code在ML工程任务上超越了其他模型。
查看缓存全文
缓存时间: 2026/06/15 09:01
我们对7个前沿模型在3类自动研究任务上进行了基准测试:机器学习工程、工具/提示工程以及算法发现。
即使在成本约束下,Fable-5整体获胜,但机器学习工程任务上,开源模型Kimi-K2.7-Code超越了前沿模型。(1/5)
基准测试协议:
- 受成本约束(LLM + 评估成本),而非步骤约束。这意味着如果代理的模型或方案运行成本更低,它可以运行更多步骤。
- 所有模型均使用@WecoAI服务背后的自主研究工具。
- 分数应解释为最终方案相较于朴素ReAct代理的优劣程度。(2/5)
总体而言,Fable在自动研究方面是一个非常强大的模型。它在工具/提示工程和算法发现任务上表现突出。我们对算法发现的结果尤其感到惊讶,因为评估成本很低,更便宜的模型可以运行更多的步骤。(3/5)
令人惊讶的是,我们发现一个近期开源的模型Kimi-K2.7在机器学习工程上表现非常出色。而Fable的表现甚至不如Opus。这可能是因为成本膨胀,或者机器学习任务上设置了限制。(4/5)
总体而言,模型供应链在自动研究领域似乎将变得更加不稳定。
在Weco方面,我们将保持模型中立,并为用户提供更多选择。今天,我们刚刚增加了对Kimi-2.7的支持。(5/5)
如果你感兴趣:
是的,我相信@SakanaAILabs对此有一些研究。
在MLE上,Opus与GPT-5.5之间的差距非常小,所以我不认为这有什么特别的意义(可能是噪声)。
关于工具调优,这是一个合理的担忧。在开发过程中,它已经针对不同提供商的模型进行了调优。可能存在一些偏差,但很难判断哪个特定模型获得了优势。
是的,类似的内容在:https://arxiv.org/html/2605.21384v1…
谢谢Davide!虽然噪声很大,但我们运行了大量种子,聚合后的数字应该相当稳健。
我认为我们的基准测试与其他基准测试的一个关键区别在于我们是成本受限的。Claude模型通常相当昂贵,这导致迭代步骤较少。此外,Claude在某些与常规软件工程不同的细分任务上表现较弱。例如,直到Opus 4.6之前,它在MLE上表现都很差,并且在算法/启发式工程上仍然表现不佳。
是的,它在启发式工程和更传统的算法设计方面不太擅长。
谢谢!我无法分享具体任务,但大致是传统机器学习方向。
相似文章
AutoLab:前沿模型能否解决长周期自动研究与工程任务?
AutoLab提出了一个基准,用于评估前沿模型在多个领域中的长周期迭代优化能力。结果表明,持续性和时间意识比初始性能更为关键,其中claude-opus-4.6展现了强大的能力,而许多模型过早终止。
Open source battle: GLM vs Kimi vs MiMo vs DeepSeek
本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。
FrontierCode
FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。
@atomic_chat_hq:新发布的 @Zai_org GLM-5.2 在物理竞赛中击败了 Kimi K2.7 Code!我们给两个模型相同的三个提示,要求它们……
Z.ai 发布了 GLM-5.2,这是一款具有开放权重的 AI 模型,在编码和智能体性能方面有所提升,通过在三个任务的物理模拟基准测试中击败 Kimi K2.7 Code 得到证明。
@noisyb0y1: 有人逆向工程了Kimi K2.6,这彻底终结了“更大模型=更优AI”的说法。1万亿参数…
对Kimi K2.6的逆向工程分析显示,其架构优先考虑编排和技能注入,而非原始参数数量,通过多智能体协作无需再训练即可获得高SWE-Bench分数。