SoundnessBench:你的AI科学家真能区分研究创意的好坏吗?
摘要
SoundnessBench是一个包含1,099个机器学习研究提案的基准测试,用于评估大语言模型评判方法论有效性的能力,结果发现当前模型普遍存在乐观偏差。
查看缓存全文
缓存时间: 2026/06/01 11:20
论文页面 - SoundnessBench: 你的AI科学家真的能区分好的和坏的研究想法吗?
来源:https://huggingface.co/papers/2605.30329
摘要
SoundnessBench评估了大型语言模型评判机器学习研究提案方法论有效性的能力,揭示了当前模型中普遍存在的乐观偏差。
自主 AI 研究智能体 (https://huggingface.co/papers?q=Autonomous%20AI%20research%20agents) 旨在通过自动化研究流程(从假设生成 (https://huggingface.co/papers?q=hypothesis%20generation) 到同行评审 (https://huggingface.co/papers?q=peer%20review))来加速科学发现。然而,现有基准很少测试一个根本瓶颈:大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) 能否在花费时间和计算资源之前判断一个研究想法的方法论可行性。我们推出了 SoundnessBench,这是一个精心策划的基准,包含1,099个从ICLR投稿 (https://huggingface.co/papers?q=ICLR%20submissions) 重建的机器学习研究提案,标注了审稿人可靠性 (https://huggingface.co/papers?q=reviewer%20soundness) 子评分,并与源论文进行了核对。SoundnessBench应被理解为用于评估可恢复的提案阶段可靠性的基准,而非对完整论文评审结果的精确预测。在12个前沿LLM上,我们发现了一种普遍的乐观偏差:在标准提示下,模型经常将低可靠性提案评为可靠,而激进提示则主要将错误从假阳性转变为假阴性。对公共语料污染、论文标识短语、表面特征和人工审计质量的额外控制表明,这种行为不能由单一混杂因素解释。我们的结果表明,当前LLM作为科学严谨性的独立初筛评判者尚不可靠。
查看arXiv页面 (https://arxiv.org/abs/2605.30329)查看PDF (https://arxiv.org/pdf/2605.30329)项目页面 (https://hosytuyen.github.io/projects/SoundnessBench/)GitHub0 (https://github.com/hosytuyen/hosytuyen.github.io)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30329)
在你的智能体中获取此论文:
hf papers read 2605.30329
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有与此论文关联的模型
在模型的README.md中引用arxiv.org/abs/2605.30329以将其链接到此页面。
引用此论文的数据集1
hosytuyen/SoundnessBench 查看器•更新于2天前 • 1.1k • 221 (https://huggingface.co/datasets/hosytuyen/SoundnessBench)
引用此论文的Spaces0
没有链接此论文的Space
在Space的README.md中引用arxiv.org/abs/2605.30329以将其链接到此页面。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。
相似文章
MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
论LLM作为裁判在科学新颖性评估中的局限性
本文介绍了RQ-Bench,一个用于评估LLM判断科学研究问题新颖性的基准。研究发现,LLM裁判一致认为生成的问题比人类专家认为的更新颖,这引发了对使用LLM进行科学新颖性评估可靠性的担忧。
PseudoBench:衡量智能自动研究如何助长伪科学
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
SciRisk-Bench:面向AI4Science安全的风险维度感知基准
本文介绍了SciRisk-Bench,这是一个用于在AI4Science场景下评估大语言模型安全的基准,涵盖7个学科、31个子学科和10个风险维度,以同时评估科学能力和风险意识。
最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试
文章介绍了Refute基准测试,该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示,最好的批评模型在犯错时往往也最有自信。