SoundnessBench：你的AI科学家真能区分研究创意的好坏吗？

Hugging Face Daily Papers 2026/05/28 00:00 论文

soundnessbench llm-evaluation research-ideas optimism-bias scientific-rigor benchmark

摘要

SoundnessBench是一个包含1,099个机器学习研究提案的基准测试，用于评估大语言模型评判方法论有效性的能力，结果发现当前模型普遍存在乐观偏差。

自主AI研究智能体旨在通过自动化研究流程（从假设生成到同行评审）来加速科学发现。然而，现有基准测试很少检验一个根本性瓶颈：大语言模型能否在投入时间和计算资源之前，判断一个研究构想的方法论可行性。我们推出了SoundnessBench，这是一个精心整理的基准测试，包含1,099个从ICLR投稿中重构的机器学习研究提案，附有评审者给出的方法合理性子评分，并对照原始论文进行了审核。SoundnessBench应被解读为一种针对可恢复的提案阶段合理性的基准，而非对完整论文评审结果的精确预测。在对12个前沿LLM的测试中，我们发现普遍存在乐观偏差：在标准提示下，模型频繁将低合理性的提案评为合理，而激进提示则将错误从假阳性大幅转变为假阴性。针对公共语料污染、论文标识短语、表面特征以及人工审核质量的额外控制表明，这种行为无法用单一混杂因素解释。我们的结果表明，当前LLM尚不能作为独立的科学严谨性初筛评估者。

查看原文

查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - SoundnessBench: 你的AI科学家真的能区分好的和坏的研究想法吗？

来源：https://huggingface.co/papers/2605.30329

摘要

SoundnessBench评估了大型语言模型评判机器学习研究提案方法论有效性的能力，揭示了当前模型中普遍存在的乐观偏差。

自主 AI 研究智能体 (https://huggingface.co/papers?q=Autonomous%20AI%20research%20agents) 旨在通过自动化研究流程（从假设生成 (https://huggingface.co/papers?q=hypothesis%20generation) 到同行评审 (https://huggingface.co/papers?q=peer%20review)）来加速科学发现。然而，现有基准很少测试一个根本瓶颈：大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) 能否在花费时间和计算资源之前判断一个研究想法的方法论可行性。我们推出了 SoundnessBench，这是一个精心策划的基准，包含1,099个从ICLR投稿 (https://huggingface.co/papers?q=ICLR%20submissions) 重建的机器学习研究提案，标注了审稿人可靠性 (https://huggingface.co/papers?q=reviewer%20soundness) 子评分，并与源论文进行了核对。SoundnessBench应被理解为用于评估可恢复的提案阶段可靠性的基准，而非对完整论文评审结果的精确预测。在12个前沿LLM上，我们发现了一种普遍的乐观偏差：在标准提示下，模型经常将低可靠性提案评为可靠，而激进提示则主要将错误从假阳性转变为假阴性。对公共语料污染、论文标识短语、表面特征和人工审计质量的额外控制表明，这种行为不能由单一混杂因素解释。我们的结果表明，当前LLM作为科学严谨性的独立初筛评判者尚不可靠。

查看arXiv页面 (https://arxiv.org/abs/2605.30329)查看PDF (https://arxiv.org/pdf/2605.30329)项目页面 (https://hosytuyen.github.io/projects/SoundnessBench/)GitHub0 (https://github.com/hosytuyen/hosytuyen.github.io)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30329)

在你的智能体中获取此论文：

hf papers read 2605.30329

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有与此论文关联的模型

在模型的README.md中引用arxiv.org/abs/2605.30329以将其链接到此页面。

引用此论文的数据集1

hosytuyen/SoundnessBench 查看器•更新于2天前 • 1.1k • 221 (https://huggingface.co/datasets/hosytuyen/SoundnessBench)

引用此论文的Spaces0

没有链接此论文的Space

在Space的README.md中引用arxiv.org/abs/2605.30329以将其链接到此页面。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

SoundnessBench：你的AI科学家真能区分研究创意的好坏吗？

论文页面 - SoundnessBench: 你的AI科学家真的能区分好的和坏的研究想法吗？

摘要

引用此论文的模型0

引用此论文的数据集1

hosytuyen/SoundnessBench 查看器•更新于2天前 • 1.1k • 221 (https://huggingface.co/datasets/hosytuyen/SoundnessBench)

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

论LLM作为裁判在科学新颖性评估中的局限性

PseudoBench：衡量智能自动研究如何助长伪科学

SciRisk-Bench：面向AI4Science安全的风险维度感知基准

最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试

提交意见反馈