MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

Hugging Face Daily Papers 2026/05/09 00:00 论文

摘要

本文介绍了 MLS-Bench，这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法，而非仅仅进行工程调优的基准测试。

现代 AI 的进步得益于那些在不同场景下具有通用性且能扩展至更大规模的机器学习方法。随着大型语言模型在推理、编码和工程任务中展现出先进能力，了解它们能否发现此类方法，而不仅仅是应用现有方法，显得愈发重要。我们推出了 MLS-Bench，这是一个用于评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法的基准测试。MLS-Bench 包含 12 个领域中的 140 项任务，每项任务都要求智能体改进机器学习系统或算法的一个特定组件，并证明该改进在受控设置中具有通用性且具备可扩展性。我们发现，当前的智能体仍远未能可靠地超越人类设计的方法，且对它们而言，工程式的调优比真正的发明方法更为容易。我们进一步研究了测试时扩展、自适应计算分配以及上下文提供对智能体发现性能的影响，并结合案例研究了它们的行为。我们的分析表明，瓶颈不仅在于提出新方法，还在于规划、验证和扩展关于这些方法的主张所需的科学洞察力。仅靠更多的搜索、计算或上下文本身并不能消除这一瓶颈。我们构建并维护了一个社区平台，以支持累积性和可比的迭代，并在 https://mls-bench.com 上发布了数据和代码。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 02:49

论文页面 - MLS-Bench: 对 AI 系统在构建更好 AI 方面的全面与严谨评估

来源：https://huggingface.co/papers/2605.08678 作者：

，

摘要

当前的 AI 智能体难以发明具有通用性和可扩展性的机器学习方法，更多依赖于工程调优而非真正的方法发现，其性能瓶颈源于科学洞察力而非计算资源。

现代 AI 的进步得益于那些在不同设定下具有通用性且能扩展至更大规模的机器学习方法。随着大型语言模型（https://huggingface.co/papers?q=large%20language%20models）在推理、编码和工程任务中展现出先进能力，了解它们能否发现此类方法而不仅仅是应用现有方法，变得越来越重要。我们引入了 MLS-Bench（https://huggingface.co/papers?q=MLS-Bench），这是一个用于评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法（https://huggingface.co/papers?q=scalable%20ML%20methods）的基准测试。MLS-Bench（https://huggingface.co/papers?q=MLS-Bench）包含跨越 12 个领域的 140 个任务，每个任务都要求智能体改进机器学习系统或算法中的某个特定组件，并证明该改进能在受控设定下实现泛化与扩展。我们发现，当前的智能体在可靠地超越人类设计的方法方面仍有很大差距，且它们进行工程式调优（https://huggingface.co/papers?q=engineering-style%20tuning）比真正的方法发明（https://huggingface.co/papers?q=method%20invention）更容易。我们还进一步研究了测试时缩放（https://huggingface.co/papers?q=test-time%20scaling）、自适应计算分配（https://huggingface.co/papers?q=adaptive%20compute%20allocation）以及上下文提供（https://huggingface.co/papers?q=context%20provision）对智能体发现性能的影响，并结合案例研究了它们的行为。我们的分析表明，瓶颈不仅在于提出新方法，还在于规划、验证和扩展对这些方法的主张所需的科学洞察力（https://huggingface.co/papers?q=scientific%20insight）。仅增加搜索、计算资源或上下文并不能消除这一瓶颈。我们构建并维护了一个用于累积和可比较迭代（https://huggingface.co/papers?q=comparable%20iteration）的社区平台，并在 https://mls-bench（https://huggingface.co/papers?q=mls-bench）.com 上发布了数据和代码。

查看 arXiv 页面（https://arxiv.org/abs/2605.08678）查看 PDF（https://arxiv.org/pdf/2605.08678）项目页面（https://mls-bench.com/）GitHub 10（https://github.com/Imbernoulli/MLS-Bench）添加到合集（https://huggingface.co/login?next=%2Fpapers%2F2605.08678）

在你的智能体中获取此论文：

hf papers read 2605\.08678

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08678 即可从此页面链接它。

引用此论文的数据集 1

Bohan22/MLS-Bench-Tasks 查看器• 更新于约 10 小时前 • 140 • 42（https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks）

引用此论文的空间 0

没有链接到此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.08678 即可从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集（https://huggingface.co/new-collection）即可从此页面链接它。

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

论文页面 - MLS-Bench: 对 AI 系统在构建更好 AI 方面的全面与严谨评估

摘要

引用此论文的模型 0

引用此论文的数据集 1

Bohan22/MLS-Bench-Tasks 查看器• 更新于约 10 小时前 • 140 • 42（https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks）

引用此论文的空间 0

包含此论文的合集 0

相似文章

MLE-bench：评估机器学习代理在机器学习工程中的表现

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

ASD-Bench：用于自闭症谱系障碍的 AI 模型四维综合基准测试

提交意见反馈

论文页面 - MLS-Bench: 对 AI 系统在构建更好 AI 方面的全面与严谨评估

摘要

引用此论文的模型 0

引用此论文的数据集 1

Bohan22/MLS-Bench-Tasks 查看器• 更新于 约 10 小时前 • 140 • 42（https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks）

引用此论文的空间 0

包含此论文的合集 0

相似文章

MLE-bench：评估机器学习代理在机器学习工程中的表现

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

ASD-Bench：用于自闭症谱系障碍的 AI 模型四维综合基准测试

提交意见反馈

Bohan22/MLS-Bench-Tasks 查看器• 更新于约 10 小时前 • 140 • 42（https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks）