MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估

Hugging Face Daily Papers 论文

摘要

本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。

现代 AI 的进步得益于那些在不同场景下具有通用性且能扩展至更大规模的机器学习方法。随着大型语言模型在推理、编码和工程任务中展现出先进能力,了解它们能否发现此类方法,而不仅仅是应用现有方法,显得愈发重要。我们推出了 MLS-Bench,这是一个用于评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法的基准测试。MLS-Bench 包含 12 个领域中的 140 项任务,每项任务都要求智能体改进机器学习系统或算法的一个特定组件,并证明该改进在受控设置中具有通用性且具备可扩展性。我们发现,当前的智能体仍远未能可靠地超越人类设计的方法,且对它们而言,工程式的调优比真正的发明方法更为容易。我们进一步研究了测试时扩展、自适应计算分配以及上下文提供对智能体发现性能的影响,并结合案例研究了它们的行为。我们的分析表明,瓶颈不仅在于提出新方法,还在于规划、验证和扩展关于这些方法的主张所需的科学洞察力。仅靠更多的搜索、计算或上下文本身并不能消除这一瓶颈。我们构建并维护了一个社区平台,以支持累积性和可比的迭代,并在 https://mls-bench.com 上发布了数据和代码。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 02:49

论文页面 - MLS-Bench: 对 AI 系统在构建更好 AI 方面的全面与严谨评估

来源:https://huggingface.co/papers/2605.08678 作者:

摘要

当前的 AI 智能体难以发明具有通用性和可扩展性的机器学习方法,更多依赖于工程调优而非真正的方法发现,其性能瓶颈源于科学洞察力而非计算资源。

现代 AI 的进步得益于那些在不同设定下具有通用性且能扩展至更大规模的机器学习方法。随着大型语言模型(https://huggingface.co/papers?q=large%20language%20models)在推理、编码和工程任务中展现出先进能力,了解它们能否发现此类方法而不仅仅是应用现有方法,变得越来越重要。我们引入了 MLS-Bench(https://huggingface.co/papers?q=MLS-Bench),这是一个用于评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法(https://huggingface.co/papers?q=scalable%20ML%20methods)的基准测试。MLS-Bench(https://huggingface.co/papers?q=MLS-Bench)包含跨越 12 个领域的 140 个任务,每个任务都要求智能体改进机器学习系统或算法中的某个特定组件,并证明该改进能在受控设定下实现泛化与扩展。我们发现,当前的智能体在可靠地超越人类设计的方法方面仍有很大差距,且它们进行工程式调优(https://huggingface.co/papers?q=engineering-style%20tuning)比真正的方法发明(https://huggingface.co/papers?q=method%20invention)更容易。我们还进一步研究了测试时缩放(https://huggingface.co/papers?q=test-time%20scaling)、自适应计算分配(https://huggingface.co/papers?q=adaptive%20compute%20allocation)以及上下文提供(https://huggingface.co/papers?q=context%20provision)对智能体发现性能的影响,并结合案例研究了它们的行为。我们的分析表明,瓶颈不仅在于提出新方法,还在于规划、验证和扩展对这些方法的主张所需的科学洞察力(https://huggingface.co/papers?q=scientific%20insight)。仅增加搜索、计算资源或上下文并不能消除这一瓶颈。我们构建并维护了一个用于累积和可比较迭代(https://huggingface.co/papers?q=comparable%20iteration)的社区平台,并在 https://mls-bench(https://huggingface.co/papers?q=mls-bench).com 上发布了数据和代码。

查看 arXiv 页面(https://arxiv.org/abs/2605.08678)查看 PDF(https://arxiv.org/pdf/2605.08678)项目页面(https://mls-bench.com/)GitHub 10(https://github.com/Imbernoulli/MLS-Bench)添加到合集(https://huggingface.co/login?next=%2Fpapers%2F2605.08678)

在你的智能体中获取此论文:

hf papers read 2605\.08678

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08678 即可从此页面链接它。

引用此论文的数据集 1

Bohan22/MLS-Bench-Tasks 查看器• 更新于 约 10 小时前 • 140 • 42(https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks)

引用此论文的空间 0

没有链接到此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.08678 即可从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集(https://huggingface.co/new-collection)即可从此页面链接它。

相似文章

MLE-bench:评估机器学习代理在机器学习工程中的表现

OpenAI Blog

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程

ASD-Bench:用于自闭症谱系障碍的 AI 模型四维综合基准测试

arXiv cs.LG

本文介绍了 ASD-Bench,这是一个全面的基准测试,从预测性能、校准度、可解释性和鲁棒性四个维度评估用于自闭症谱系障碍(ASD)筛查的 AI 模型。该研究使用 AQ-10 数据分析了不同年龄组的多种模型,强调了在临床 AI 应用中采用多指标评估的重要性。