AI科学家产出结果却未进行科学推理[R]
摘要
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。
研究人员进行了25,000次AI科学家实验,发现了一个值得关注的问题:AI科学家在没有真正做科学的情况下就产出了结果。68%的情况下,AI收集了证据后却完全无视;71%的情况下,AI从未更新自己的信念,一次都没有。只有26%的情况下,AI在面对矛盾数据时修正了假设。人类科学家会适应:处理化学识别问题与运行模拟工作流的方法不同,而AI不会。它每次都运行同样的无纪律循环。研究还表明,最受欢迎的所谓修复方案——更好的脚手架——并不奏效。所有构建AI研究智能体的人都在专注工程化更好的提示框架、更好的工具路由、更好的智能体架构:ReAct、结构化工具调用、思维链,等等。[alphaxiv](https://www.alphaxiv.org/abs/2604.18805) [arxiv](https://arxiv.org/abs/2604.18805)
相似文章
AI科学家产出结果,却未进行科学推理
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
@rohanpaul_ai: Anthropic新研究表明,AI智能体在代码方面可能表现卓越,但在生物学领域,它们可能在科学工作开始之前就失败……
Anthropic的研究揭示,AI智能体在生物学数据库方面存在困难,对同一个查询会产生高度差异的答案(例如,埃博拉序列计数范围从5到106,而预期为266),但添加一个可重复的检索工具能显著提高一致性和准确性。
@rohanpaul_ai: 这篇论文揭示了AI推理中的一个奇怪弱点:模型可以解决数学问题,却无法判断推理过程。令人不安的是…
这篇论文提出了Valid-Answer-Invalid-Reasoning (VAIR)基准测试,旨在揭示AI推理模型中的生成-评估差距,即模型可以生成正确答案,但无法检测出有缺陷的推理过程,暴露了答案确认偏差。
@JIACHENLIU8: AI4S 研究现状:自我演进循环、多智能体系统、智能体技能、科学基准等 —— 都是为了提升文献…
本文批评了当前AI for Science(AI4S)研究专注于弥补前沿模型弱点的做法,认为真正的瓶颈在于科学生态系统,而非单个AI科学家的智能。文章呼吁转向从第一性原理构建AI-Native的科学生态系统。
AI代理能否综合科学结论?
本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。