MLE-bench:评估机器学习代理在机器学习工程中的表现
摘要
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。
查看缓存全文
缓存时间: 2026/04/20 14:57
# MLE-bench:评估机器学习代理在机器学习工程中的表现
来源:https://openai.com/index/mle-bench/
OpenAI 机器学习代理在机器学习工程中的表现评估
我们介绍 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程方面表现的基准。为此,我们从 Kaggle 精选了 75 个与机器学习工程相关的竞赛,创建了一个多样化的具有挑战性的任务集,测试真实的机器学习工程技能,如训练模型、准备数据集和运行实验。我们使用 Kaggle 公开可用的排行榜为每场竞赛建立人类基准。我们使用开源代理脚手架来评估多个前沿语言模型在我们的基准上的表现,发现表现最好的设置——配备 AIDE 脚手架的 OpenAI o1-preview——在 16.9% 的竞赛中达到至少 Kaggle 铜牌水平。除了主要结果外,我们还研究了 AI 代理的各种资源扩展形式以及预训练污染的影响。我们开源了基准代码(https://github.com/openai/mle-bench/)以促进对 AI 代理机器学习工程能力的进一步研究。
相似文章
MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
@sherryyangML:机器学习工程(MLE)正成为新的智能体前沿。我将分享我们在扩展面向MLE智能体的强化学习方面的成果……
ICLR 2026 的两篇论文展示了小型 RL 训练智能体如何在机器学习工程任务上击败前沿模型,以及 MLE-Smith 如何自动扩展 MLE 工作负载。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
@KLieret: 你可以自己在 ProgramBench 上进行评估:https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…
ProgramBench 是一个新的基准测试,用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。