AI科学家产出结果,却未进行科学推理
摘要
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
查看缓存全文
缓存时间: 2026/04/23 11:54
论文页面 - AI科学家在没有科学推理的情况下产出结果
来源:https://huggingface.co/papers/2604.18805
摘要
基于大语言模型的科学智能体表现出一致的推理模式,但缺乏科学探究的关键认识论特征,无论任务类型或成功上下文如何,这表明它们在复现真正科学推理过程方面存在根本性局限。
基于大语言模型(https://huggingface.co/papers?q=Large%20language%20model)(LLM)的系统正越来越多地被部署用于自主开展科学研究,但它们的推理是否遵循使科学探究具有自我纠正能力的认识论规范(https://huggingface.co/papers?q=epistemic%20norms),目前了解甚少。在此,我们评估了基于LLM的科学智能体(https://huggingface.co/papers?q=scientific%20agents)在八个领域的表现,涵盖工作流执行到假设驱动型探究(https://huggingface.co/papers?q=hypothesis-driven%20inquiry),通过超过25,000次智能体运行和两个互补视角:(i)系统性能分析,分解基础模型和智能体脚手架的贡献;(ii)智能体推理认识论结构的行为分析。我们观察到,基础模型是性能和行为的主要决定因素,解释了41.4%的方差,而脚手架仅占1.5%。在所有配置中,68%的轨迹中证据被忽视,反驳驱动的信念修正(https://huggingface.co/papers?q=belief%20revision)发生在26%的轨迹中,而趋同的多重检验证据则很罕见。无论智能体执行计算工作流(https://huggingface.co/papers?q=computational%20workflow)还是进行假设驱动型探究(https://huggingface.co/papers?q=hypothesis-driven%20inquiry),相同的推理模式都会出现。即使智能体接收到接近完整的成功推理轨迹作为上下文,这些模式依然存在,由此产生的不可靠性在认识论要求高的领域中会随着重复试验而累积。因此,当前的基于LLM的智能体可以执行科学工作流,但并不表现出科学推理(https://huggingface.co/papers?q=scientific%20reasoning)的认识论特征。基于结果的评估无法检测这些失败,仅靠脚手架工程也无法修复它们。在推理本身成为训练目标之前,这类智能体产生的科学知识无法由其生成过程来证明其合理性。
查看arXiv页面(https://arxiv.org/abs/2604.18805)查看PDF(https://arxiv.org/pdf/2604.18805)项目页面(https://lamalab-org.github.io/corral/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18805)
引用此论文的模型0
暂无模型引用此论文
在模型README.md中引用arxiv.org/abs/2604.18805以从此页面链接。
引用此论文的数据集13
jablonkagroup/corral-traces 查看器• 更新于约23小时前 • 80.9k • 497(https://huggingface.co/datasets/jablonkagroup/corral-traces)
jablonkagroup/corral-oss-trace-logprobs 查看器• 更新于1天前 • 122k • 162(https://huggingface.co/datasets/jablonkagroup/corral-oss-trace-logprobs)
jablonkagroup/corral-environment-tasks 查看器• 更新于约23小时前 • 909 • 114(https://huggingface.co/datasets/jablonkagroup/corral-environment-tasks)
jablonkagroup/corral_runs_reports 查看器• 更新于约23小时前 • 609 • 112(https://huggingface.co/datasets/jablonkagroup/corral_runs_reports)
浏览引用此论文的13个数据集(https://huggingface.co/datasets?other=arxiv:2604.18805)### 引用此论文的Spaces0
暂无Space引用此论文
在Space README.md中引用arxiv.org/abs/2604.18805以从此页面链接。
包含此论文的收藏0
暂无收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
AI科学家产出结果却未进行科学推理[R]
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。
智能体会探索却无视:大语言模型缺乏环境好奇心
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。
实验还是结果?探测大语言模型中的科学可行性
UMBC 研究人员发现,大语言模型在判断科学主张是否可行时,依据结果数据比依据实验描述更准确;不完整的实验背景反而会降低准确率。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。