AI科学家产出结果却未进行科学推理[R]
摘要
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。
研究人员进行了25,000次AI科学家实验,发现了一个值得关注的问题:AI科学家在没有真正做科学的情况下就产出了结果。68%的情况下,AI收集了证据后却完全无视;71%的情况下,AI从未更新自己的信念,一次都没有。只有26%的情况下,AI在面对矛盾数据时修正了假设。人类科学家会适应:处理化学识别问题与运行模拟工作流的方法不同,而AI不会。它每次都运行同样的无纪律循环。研究还表明,最受欢迎的所谓修复方案——更好的脚手架——并不奏效。所有构建AI研究智能体的人都在专注工程化更好的提示框架、更好的工具路由、更好的智能体架构:ReAct、结构化工具调用、思维链,等等。[alphaxiv](https://www.alphaxiv.org/abs/2604.18805) [arxiv](https://arxiv.org/abs/2604.18805)
相似文章
AI科学家产出结果,却未进行科学推理
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
@AiwithYasir:突发:这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车
斯坦福与哈佛研究者指出,agentic AI 系统在现实部署中失败,并非因为“不够聪明”,而是某些根本性问题导致演示效果在实际场景中崩溃。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。