SoundnessBench:你的AI科学家真能区分研究创意的好坏吗?

Hugging Face Daily Papers 论文

摘要

SoundnessBench是一个包含1,099个机器学习研究提案的基准测试,用于评估大语言模型评判方法论有效性的能力,结果发现当前模型普遍存在乐观偏差。

自主AI研究智能体旨在通过自动化研究流程(从假设生成到同行评审)来加速科学发现。然而,现有基准测试很少检验一个根本性瓶颈:大语言模型能否在投入时间和计算资源之前,判断一个研究构想的方法论可行性。我们推出了SoundnessBench,这是一个精心整理的基准测试,包含1,099个从ICLR投稿中重构的机器学习研究提案,附有评审者给出的方法合理性子评分,并对照原始论文进行了审核。SoundnessBench应被解读为一种针对可恢复的提案阶段合理性的基准,而非对完整论文评审结果的精确预测。在对12个前沿LLM的测试中,我们发现普遍存在乐观偏差:在标准提示下,模型频繁将低合理性的提案评为合理,而激进提示则将错误从假阳性大幅转变为假阴性。针对公共语料污染、论文标识短语、表面特征以及人工审核质量的额外控制表明,这种行为无法用单一混杂因素解释。我们的结果表明,当前LLM尚不能作为独立的科学严谨性初筛评估者。
查看原文
查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - SoundnessBench: 你的AI科学家真的能区分好的和坏的研究想法吗?

来源:https://huggingface.co/papers/2605.30329

摘要

SoundnessBench评估了大型语言模型评判机器学习研究提案方法论有效性的能力,揭示了当前模型中普遍存在的乐观偏差。

自主 AI 研究智能体 (https://huggingface.co/papers?q=Autonomous%20AI%20research%20agents) 旨在通过自动化研究流程(从假设生成 (https://huggingface.co/papers?q=hypothesis%20generation) 到同行评审 (https://huggingface.co/papers?q=peer%20review))来加速科学发现。然而,现有基准很少测试一个根本瓶颈:大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) 能否在花费时间和计算资源之前判断一个研究想法的方法论可行性。我们推出了 SoundnessBench,这是一个精心策划的基准,包含1,099个从ICLR投稿 (https://huggingface.co/papers?q=ICLR%20submissions) 重建的机器学习研究提案,标注了审稿人可靠性 (https://huggingface.co/papers?q=reviewer%20soundness) 子评分,并与源论文进行了核对。SoundnessBench应被理解为用于评估可恢复的提案阶段可靠性的基准,而非对完整论文评审结果的精确预测。在12个前沿LLM上,我们发现了一种普遍的乐观偏差:在标准提示下,模型经常将低可靠性提案评为可靠,而激进提示则主要将错误从假阳性转变为假阴性。对公共语料污染、论文标识短语、表面特征和人工审计质量的额外控制表明,这种行为不能由单一混杂因素解释。我们的结果表明,当前LLM作为科学严谨性的独立初筛评判者尚不可靠。

查看arXiv页面 (https://arxiv.org/abs/2605.30329)查看PDF (https://arxiv.org/pdf/2605.30329)项目页面 (https://hosytuyen.github.io/projects/SoundnessBench/)GitHub0 (https://github.com/hosytuyen/hosytuyen.github.io)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30329)

在你的智能体中获取此论文:

hf papers read 2605.30329

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有与此论文关联的模型

在模型的README.md中引用arxiv.org/abs/2605.30329以将其链接到此页面。

引用此论文的数据集1

hosytuyen/SoundnessBench 查看器•更新于2天前 • 1.1k • 221 (https://huggingface.co/datasets/hosytuyen/SoundnessBench)

引用此论文的Spaces0

没有链接此论文的Space

在Space的README.md中引用arxiv.org/abs/2605.30329以将其链接到此页面。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

相似文章

论LLM作为裁判在科学新颖性评估中的局限性

Hugging Face Daily Papers

本文介绍了RQ-Bench,一个用于评估LLM判断科学研究问题新颖性的基准。研究发现,LLM裁判一致认为生成的问题比人类专家认为的更新颖,这引发了对使用LLM进行科学新颖性评估可靠性的担忧。

PseudoBench:衡量智能自动研究如何助长伪科学

arXiv cs.AI

PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。