AI科学家产出结果,却未进行科学推理

Hugging Face Daily Papers 论文

摘要

大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。

基于大语言模型(LLM)的系统正越来越多地被部署用于自主开展科学研究,但它们的推理是否遵循使科学探究具备自我纠正能力的认识论规范,目前尚不清楚。在此,我们通过超过25,000次智能体运行,从两个互补视角评估了跨八个领域的LLM科学智能体——涵盖从工作流执行到假设驱动探究的广泛范围:(i)一项系统性性能分析,分解基础模型与智能体脚手架各自的贡献;(ii)对智能体推理认识论结构的行为分析。我们观察到,基础模型是性能和行为的主要决定因素,解释了41.4%的方差,而脚手架仅占1.5%。在所有配置中,68%的轨迹存在证据被忽视的情况,26%发生基于反驳的信念修正,而趋同的多重检验证据则十分罕见。无论智能体执行的是计算工作流还是假设驱动探究,相同的推理模式都会出现。即使智能体获得近乎完整的成功推理轨迹作为上下文,这些模式依然存在;且在认识论要求较高的领域,由此产生的不可靠性会在重复试验中累积。因此,当前的LLM智能体能够执行科学工作流,但并未展现出科学推理所特有的认识模式。基于结果的评估无法检测这些缺陷,仅凭脚手架工程也无法修复它们。在推理本身成为训练目标之前,此类智能体所产生的科学知识无法通过其生成过程得到证成。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 11:54

论文页面 - AI科学家在没有科学推理的情况下产出结果

来源:https://huggingface.co/papers/2604.18805

摘要

基于大语言模型的科学智能体表现出一致的推理模式,但缺乏科学探究的关键认识论特征,无论任务类型或成功上下文如何,这表明它们在复现真正科学推理过程方面存在根本性局限。

基于大语言模型(https://huggingface.co/papers?q=Large%20language%20model)(LLM)的系统正越来越多地被部署用于自主开展科学研究,但它们的推理是否遵循使科学探究具有自我纠正能力的认识论规范(https://huggingface.co/papers?q=epistemic%20norms),目前了解甚少。在此,我们评估了基于LLM的科学智能体(https://huggingface.co/papers?q=scientific%20agents)在八个领域的表现,涵盖工作流执行到假设驱动型探究(https://huggingface.co/papers?q=hypothesis-driven%20inquiry),通过超过25,000次智能体运行和两个互补视角:(i)系统性能分析,分解基础模型和智能体脚手架的贡献;(ii)智能体推理认识论结构的行为分析。我们观察到,基础模型是性能和行为的主要决定因素,解释了41.4%的方差,而脚手架仅占1.5%。在所有配置中,68%的轨迹中证据被忽视,反驳驱动的信念修正(https://huggingface.co/papers?q=belief%20revision)发生在26%的轨迹中,而趋同的多重检验证据则很罕见。无论智能体执行计算工作流(https://huggingface.co/papers?q=computational%20workflow)还是进行假设驱动型探究(https://huggingface.co/papers?q=hypothesis-driven%20inquiry),相同的推理模式都会出现。即使智能体接收到接近完整的成功推理轨迹作为上下文,这些模式依然存在,由此产生的不可靠性在认识论要求高的领域中会随着重复试验而累积。因此,当前的基于LLM的智能体可以执行科学工作流,但并不表现出科学推理(https://huggingface.co/papers?q=scientific%20reasoning)的认识论特征。基于结果的评估无法检测这些失败,仅靠脚手架工程也无法修复它们。在推理本身成为训练目标之前,这类智能体产生的科学知识无法由其生成过程来证明其合理性。

查看arXiv页面(https://arxiv.org/abs/2604.18805)查看PDF(https://arxiv.org/pdf/2604.18805)项目页面(https://lamalab-org.github.io/corral/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18805)

引用此论文的模型0

暂无模型引用此论文

在模型README.md中引用arxiv.org/abs/2604.18805以从此页面链接。

引用此论文的数据集13

jablonkagroup/corral-traces 查看器• 更新于约23小时前 • 80.9k • 497(https://huggingface.co/datasets/jablonkagroup/corral-traces)

jablonkagroup/corral-oss-trace-logprobs 查看器• 更新于1天前 • 122k • 162(https://huggingface.co/datasets/jablonkagroup/corral-oss-trace-logprobs)

jablonkagroup/corral-environment-tasks 查看器• 更新于约23小时前 • 909 • 114(https://huggingface.co/datasets/jablonkagroup/corral-environment-tasks)

jablonkagroup/corral_runs_reports 查看器• 更新于约23小时前 • 609 • 112(https://huggingface.co/datasets/jablonkagroup/corral_runs_reports)

浏览引用此论文的13个数据集(https://huggingface.co/datasets?other=arxiv:2604.18805)### 引用此论文的Spaces0

暂无Space引用此论文

在Space README.md中引用arxiv.org/abs/2604.18805以从此页面链接。

包含此论文的收藏0

暂无收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

AI科学家产出结果却未进行科学推理[R]

Reddit r/MachineLearning

一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。