belief-updates

#belief-updates

BayesBench: 多轮证据累积下LLM信念轨迹的评估

arXiv cs.AI ↗ · 4天前缓存

BayesBench评估了在多轮证据累积任务中，大语言模型的信念更新与贝叶斯推理的接近程度，发现虽然扩展规模能改善潜在推理，但模型难以将这种理解用于下游预测。

0 人收藏 0 人点赞

#belief-updates

Reddit r/MachineLearning ↗ · 2026-04-22

一项对25,000次AI科学家试验的研究发现，智能体68%的时间忽视证据，极少修正假设，显示流行的脚手架修复方法并未赋予真正的科学推理能力。

0 人收藏 0 人点赞