AI科学家产出结果,却未进行科学推理
摘要
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
查看缓存全文
缓存时间: 2026/04/23 11:54
论文页面 - AI科学家在没有科学推理的情况下产出结果
来源:https://huggingface.co/papers/2604.18805
摘要
基于大语言模型的科学智能体表现出一致的推理模式,但缺乏科学探究的关键认识论特征,无论任务类型或成功上下文如何,这表明它们在复现真正科学推理过程方面存在根本性局限。
基于大语言模型(https://huggingface.co/papers?q=Large%20language%20model)(LLM)的系统正越来越多地被部署用于自主开展科学研究,但它们的推理是否遵循使科学探究具有自我纠正能力的认识论规范(https://huggingface.co/papers?q=epistemic%20norms),目前了解甚少。在此,我们评估了基于LLM的科学智能体(https://huggingface.co/papers?q=scientific%20agents)在八个领域的表现,涵盖工作流执行到假设驱动型探究(https://huggingface.co/papers?q=hypothesis-driven%20inquiry),通过超过25,000次智能体运行和两个互补视角:(i)系统性能分析,分解基础模型和智能体脚手架的贡献;(ii)智能体推理认识论结构的行为分析。我们观察到,基础模型是性能和行为的主要决定因素,解释了41.4%的方差,而脚手架仅占1.5%。在所有配置中,68%的轨迹中证据被忽视,反驳驱动的信念修正(https://huggingface.co/papers?q=belief%20revision)发生在26%的轨迹中,而趋同的多重检验证据则很罕见。无论智能体执行计算工作流(https://huggingface.co/papers?q=computational%20workflow)还是进行假设驱动型探究(https://huggingface.co/papers?q=hypothesis-driven%20inquiry),相同的推理模式都会出现。即使智能体接收到接近完整的成功推理轨迹作为上下文,这些模式依然存在,由此产生的不可靠性在认识论要求高的领域中会随着重复试验而累积。因此,当前的基于LLM的智能体可以执行科学工作流,但并不表现出科学推理(https://huggingface.co/papers?q=scientific%20reasoning)的认识论特征。基于结果的评估无法检测这些失败,仅靠脚手架工程也无法修复它们。在推理本身成为训练目标之前,这类智能体产生的科学知识无法由其生成过程来证明其合理性。
查看arXiv页面(https://arxiv.org/abs/2604.18805)查看PDF(https://arxiv.org/pdf/2604.18805)项目页面(https://lamalab-org.github.io/corral/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18805)
引用此论文的模型0
暂无模型引用此论文
在模型README.md中引用arxiv.org/abs/2604.18805以从此页面链接。
引用此论文的数据集13
jablonkagroup/corral-traces 查看器• 更新于约23小时前 • 80.9k • 497(https://huggingface.co/datasets/jablonkagroup/corral-traces)
jablonkagroup/corral-oss-trace-logprobs 查看器• 更新于1天前 • 122k • 162(https://huggingface.co/datasets/jablonkagroup/corral-oss-trace-logprobs)
jablonkagroup/corral-environment-tasks 查看器• 更新于约23小时前 • 909 • 114(https://huggingface.co/datasets/jablonkagroup/corral-environment-tasks)
jablonkagroup/corral_runs_reports 查看器• 更新于约23小时前 • 609 • 112(https://huggingface.co/datasets/jablonkagroup/corral_runs_reports)
浏览引用此论文的13个数据集(https://huggingface.co/datasets?other=arxiv:2604.18805)### 引用此论文的Spaces0
暂无Space引用此论文
在Space README.md中引用arxiv.org/abs/2604.18805以从此页面链接。
包含此论文的收藏0
暂无收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
AI科学家产出结果却未进行科学推理[R]
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。
ForeSci:评估LLM代理的前瞻性AI研究判断
介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。
@ProfBuehlerMIT: 对于科学而言,AI主权和基于物理的推理是不可妥协的。但如何教像Ge…这样的小型LLM呢?
mistral.rs 现已原生支持 Agent Skills,使本地运行的小型LLM能够执行复杂的科学任务代理工作流,并完全控制模型、数据和执行。
@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗?这项工作使这个问题可评分。一个代理…
一篇研究论文提出了‘智能体自动机学习’来评估LLM代理是否能通过交互推断隐藏的世界模型,发现性能随着任务复杂度的增加而急剧下降,并且推理模型优于非推理模型,但仍然存在困难。
模拟、推理、决策:基于LLM的科学推理驱动仿真决策
密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。