BayesBench: 多轮证据累积下LLM信念轨迹的评估

arXiv cs.AI 2026/07/01 04:00 论文

llm bayesian-reasoning belief-updates multi-turn evaluation benchmark

摘要

BayesBench评估了在多轮证据累积任务中，大语言模型的信念更新与贝叶斯推理的接近程度，发现虽然扩展规模能改善潜在推理，但模型难以将这种理解用于下游预测。

arXiv:2606.30850v1 公告类型：新摘要：大语言模型（LLMs）通常部署在多轮对话中，每一轮都提供新的证据，理应减少关于环境的不确定性。理性行为需要推断控制环境的未观测变量，并随着证据的积累更新对这些变量的信念。然而，大多数评估仅以单轮形式对模型的最后一轮答案进行评分，忽略了这个过程。我们探讨了LLMs的信念更新在多轮设置中与理性贝叶斯推理者的匹配程度，并引入了BayesBench，这是一套模拟环境套件，通过三个逐渐复杂的任务进行探究：（i）贝叶斯估计，模型从顺序证据中推断未知参数；（ii）贝叶斯预测，模型将关于潜在变量的推断信念转化为结果预测；以及（iii）潜在框架下的贝叶斯预测，其中观察结果通过用户角色框架进行过滤，需要对潜在状态和角色进行联合推断。在七个LLMs（3B-70B）中，扩展规模改善了潜在推理和证据积累，更新偶尔与贝叶斯后验一致。然而，这些改进并未可靠地转化为下游预测，揭示了推断潜在结构与将其用于理性更新目标结果信念之间的差距。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:36

# BayesBench：在多轮证据积累下评估大语言模型的信念轨迹
来源：https://arxiv.org/abs/2606.30850
查看PDF（https://arxiv.org/pdf/2606.30850）

> 摘要：大语言模型（LLMs）通常部署在多轮对话场景中，每一轮对话都提供了新的证据，这些证据应能减少关于环境的不确定性。理性行为要求模型推断控制环境的未观测变量，并随着证据积累更新对这些变量的信念。然而，大多数评估仅在单轮问答格式下对模型的最终轮答案进行评分，忽视了对这一过程的考察。我们探究LLMs的信念更新在多轮设置下与理性贝叶斯推理者的匹配程度，并推出了BayesBench——一套模拟环境套件，通过三个逐步复杂的任务来探究这一问题：（i）贝叶斯估计，模型从顺序证据中推断未知参数；（ii）贝叶斯预测，模型将对潜在变量的推断信念转化为结果预测；（iii）潜在框架下的贝叶斯预测，其中观测通过用户角色框架进行过滤，需要对潜在状态和角色进行联合推断。在七个LLMs（3B–70B）上，规模提升改善了潜在推理和证据积累，更新有时能匹配贝叶斯后验。然而，这些提升并未可靠地迁移到下游预测任务，揭示了推断潜在结构与其理性更新关于目标结果的信念之间存在差距。

## 提交历史

来自：Ankur Samanta [查看电子邮件](https://arxiv.org/show-email/c97c227a/2606.30850) **\[v1\]** 2026年6月29日星期一 19:30:32 UTC（852 KB）

BayesBench: 多轮证据累积下LLM信念轨迹的评估

相似文章

基于概率信念追踪的多轮人类可说服性模型

DLawBench：通过多轮法律咨询评估大语言模型

大规模语言模型的概率归因

大语言模型的序贯统计推断：表征、有效性与监控

模型何时该改变想法？大语言模型中的情境信念管理

提交意见反馈