MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
摘要
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
查看缓存全文
缓存时间: 2026/05/12 02:49
论文页面 - MLS-Bench: 对 AI 系统在构建更好 AI 方面的全面与严谨评估
来源:https://huggingface.co/papers/2605.08678 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
当前的 AI 智能体难以发明具有通用性和可扩展性的机器学习方法,更多依赖于工程调优而非真正的方法发现,其性能瓶颈源于科学洞察力而非计算资源。
现代 AI 的进步得益于那些在不同设定下具有通用性且能扩展至更大规模的机器学习方法。随着大型语言模型(https://huggingface.co/papers?q=large%20language%20models)在推理、编码和工程任务中展现出先进能力,了解它们能否发现此类方法而不仅仅是应用现有方法,变得越来越重要。我们引入了 MLS-Bench(https://huggingface.co/papers?q=MLS-Bench),这是一个用于评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法(https://huggingface.co/papers?q=scalable%20ML%20methods)的基准测试。MLS-Bench(https://huggingface.co/papers?q=MLS-Bench)包含跨越 12 个领域的 140 个任务,每个任务都要求智能体改进机器学习系统或算法中的某个特定组件,并证明该改进能在受控设定下实现泛化与扩展。我们发现,当前的智能体在可靠地超越人类设计的方法方面仍有很大差距,且它们进行工程式调优(https://huggingface.co/papers?q=engineering-style%20tuning)比真正的方法发明(https://huggingface.co/papers?q=method%20invention)更容易。我们还进一步研究了测试时缩放(https://huggingface.co/papers?q=test-time%20scaling)、自适应计算分配(https://huggingface.co/papers?q=adaptive%20compute%20allocation)以及上下文提供(https://huggingface.co/papers?q=context%20provision)对智能体发现性能的影响,并结合案例研究了它们的行为。我们的分析表明,瓶颈不仅在于提出新方法,还在于规划、验证和扩展对这些方法的主张所需的科学洞察力(https://huggingface.co/papers?q=scientific%20insight)。仅增加搜索、计算资源或上下文并不能消除这一瓶颈。我们构建并维护了一个用于累积和可比较迭代(https://huggingface.co/papers?q=comparable%20iteration)的社区平台,并在 https://mls-bench(https://huggingface.co/papers?q=mls-bench).com 上发布了数据和代码。
查看 arXiv 页面(https://arxiv.org/abs/2605.08678)查看 PDF(https://arxiv.org/pdf/2605.08678)项目页面(https://mls-bench.com/)GitHub 10(https://github.com/Imbernoulli/MLS-Bench)添加到合集(https://huggingface.co/login?next=%2Fpapers%2F2605.08678)
在你的智能体中获取此论文:
hf papers read 2605\.08678
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.08678 即可从此页面链接它。
引用此论文的数据集 1
Bohan22/MLS-Bench-Tasks 查看器• 更新于 约 10 小时前 • 140 • 42(https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks)
引用此论文的空间 0
没有链接到此论文的空间
在空间 README.md 中引用 arxiv.org/abs/2605.08678 即可从此页面链接它。
包含此论文的合集 0
没有包含此论文的合集
将此论文添加到合集(https://huggingface.co/new-collection)即可从此页面链接它。
相似文章
MLE-bench:评估机器学习代理在机器学习工程中的表现
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.
ASD-Bench:用于自闭症谱系障碍的 AI 模型四维综合基准测试
本文介绍了 ASD-Bench,这是一个全面的基准测试,从预测性能、校准度、可解释性和鲁棒性四个维度评估用于自闭症谱系障碍(ASD)筛查的 AI 模型。该研究使用 AQ-10 数据分析了不同年龄组的多种模型,强调了在临床 AI 应用中采用多指标评估的重要性。