MLE-bench:评估机器学习代理在机器学习工程中的表现

OpenAI Blog 论文

摘要

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程

我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:57

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:https://openai.com/index/mle-bench/ OpenAI 机器学习代理在机器学习工程中的表现评估 我们介绍 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程方面表现的基准。为此,我们从 Kaggle 精选了 75 个与机器学习工程相关的竞赛,创建了一个多样化的具有挑战性的任务集,测试真实的机器学习工程技能,如训练模型、准备数据集和运行实验。我们使用 Kaggle 公开可用的排行榜为每场竞赛建立人类基准。我们使用开源代理脚手架来评估多个前沿语言模型在我们的基准上的表现,发现表现最好的设置——配备 AIDE 脚手架的 OpenAI o1-preview——在 16.9% 的竞赛中达到至少 Kaggle 铜牌水平。除了主要结果外,我们还研究了 AI 代理的各种资源扩展形式以及预训练污染的影响。我们开源了基准代码(https://github.com/openai/mle-bench/)以促进对 AI 代理机器学习工程能力的进一步研究。

相似文章

@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题:当今最好的编码代理能打败公开发表的…

X AI KOLs Timeline

介绍了NatureBench,这是一个跨学科基准测试,包含来自Nature论文的90个任务,用于测试AI编码代理。研究发现,最好的代理(Claude Opus 4.7)仅在17.8%的任务上超越了现有最佳水平,而且其成功往往是通过将科学简化为监督式机器学习,而非真正的发现来实现的。

MLUBench: 多模态大语言模型终身遗忘评估基准

arXiv cs.AI

MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。