belief-updates

标签

Cards List
#belief-updates

BayesBench: 多轮证据累积下LLM信念轨迹的评估

arXiv cs.AI · 4天前 缓存

BayesBench评估了在多轮证据累积任务中,大语言模型的信念更新与贝叶斯推理的接近程度,发现虽然扩展规模能改善潜在推理,但模型难以将这种理解用于下游预测。

0 人收藏 0 人点赞
#belief-updates

AI科学家产出结果却未进行科学推理[R]

Reddit r/MachineLearning · 2026-04-22

一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈