bayesian-reasoning

#bayesian-reasoning

BayesBench: 多轮证据累积下LLM信念轨迹的评估

arXiv cs.AI ↗ · 4天前缓存

BayesBench评估了在多轮证据累积任务中，大语言模型的信念更新与贝叶斯推理的接近程度，发现虽然扩展规模能改善潜在推理，但模型难以将这种理解用于下游预测。

0 人收藏 0 人点赞

#bayesian-reasoning

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了 BALAR，这是一种无需训练的贝叶斯智能体循环算法，使大型语言模型能够在多轮交互中进行主动推理并提出澄清性问题。该算法在侦探、谜题和临床诊断基准测试中显示出比基线方法显著的性能提升。

0 人收藏 0 人点赞