标签
BayesBench评估了在多轮证据累积任务中,大语言模型的信念更新与贝叶斯推理的接近程度,发现虽然扩展规模能改善潜在推理,但模型难以将这种理解用于下游预测。
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。