MLE-bench：评估机器学习代理在机器学习工程中的表现

OpenAI Blog 2024/10/10 10:00 论文

benchmark ai-agents machine-learning-engineering evaluation kaggle llm

摘要

# MLE-bench：评估机器学习代理在机器学习工程中的表现来源：[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现我们推出了 MLE-bench，这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此，我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛，创建了一个多样化的具有挑战性的任务集合，用于测试真实的 ML 工程

我们推出了 MLE-bench，这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:57

# MLE-bench：评估机器学习代理在机器学习工程中的表现来源：https://openai.com/index/mle-bench/ OpenAI 机器学习代理在机器学习工程中的表现评估我们介绍 MLE-bench，这是一个用于衡量 AI 代理在机器学习工程方面表现的基准。为此，我们从 Kaggle 精选了 75 个与机器学习工程相关的竞赛，创建了一个多样化的具有挑战性的任务集，测试真实的机器学习工程技能，如训练模型、准备数据集和运行实验。我们使用 Kaggle 公开可用的排行榜为每场竞赛建立人类基准。我们使用开源代理脚手架来评估多个前沿语言模型在我们的基准上的表现，发现表现最好的设置——配备 AIDE 脚手架的 OpenAI o1-preview——在 16.9% 的竞赛中达到至少 Kaggle 铜牌水平。除了主要结果外，我们还研究了 AI 代理的各种资源扩展形式以及预训练污染的影响。我们开源了基准代码（https://github.com/openai/mle-bench/）以促进对 AI 代理机器学习工程能力的进一步研究。

MLE-bench：评估机器学习代理在机器学习工程中的表现

相似文章

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

@sherryyangML：机器学习工程（MLE）正成为新的智能体前沿。我将分享我们在扩展面向MLE智能体的强化学习方面的成果……

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

@KLieret: 你可以自己在 ProgramBench 上进行评估：https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…

提交意见反馈