BayesBench: 多轮证据累积下LLM信念轨迹的评估

arXiv cs.AI 论文

摘要

BayesBench评估了在多轮证据累积任务中,大语言模型的信念更新与贝叶斯推理的接近程度,发现虽然扩展规模能改善潜在推理,但模型难以将这种理解用于下游预测。

arXiv:2606.30850v1 公告类型:新 摘要:大语言模型(LLMs)通常部署在多轮对话中,每一轮都提供新的证据,理应减少关于环境的不确定性。理性行为需要推断控制环境的未观测变量,并随着证据的积累更新对这些变量的信念。然而,大多数评估仅以单轮形式对模型的最后一轮答案进行评分,忽略了这个过程。我们探讨了LLMs的信念更新在多轮设置中与理性贝叶斯推理者的匹配程度,并引入了BayesBench,这是一套模拟环境套件,通过三个逐渐复杂的任务进行探究:(i)贝叶斯估计,模型从顺序证据中推断未知参数;(ii)贝叶斯预测,模型将关于潜在变量的推断信念转化为结果预测;以及(iii)潜在框架下的贝叶斯预测,其中观察结果通过用户角色框架进行过滤,需要对潜在状态和角色进行联合推断。在七个LLMs(3B-70B)中,扩展规模改善了潜在推理和证据积累,更新偶尔与贝叶斯后验一致。然而,这些改进并未可靠地转化为下游预测,揭示了推断潜在结构与将其用于理性更新目标结果信念之间的差距。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:36

# BayesBench:在多轮证据积累下评估大语言模型的信念轨迹
来源:https://arxiv.org/abs/2606.30850
查看PDF(https://arxiv.org/pdf/2606.30850)

> 摘要:大语言模型(LLMs)通常部署在多轮对话场景中,每一轮对话都提供了新的证据,这些证据应能减少关于环境的不确定性。理性行为要求模型推断控制环境的未观测变量,并随着证据积累更新对这些变量的信念。然而,大多数评估仅在单轮问答格式下对模型的最终轮答案进行评分,忽视了对这一过程的考察。我们探究LLMs的信念更新在多轮设置下与理性贝叶斯推理者的匹配程度,并推出了BayesBench——一套模拟环境套件,通过三个逐步复杂的任务来探究这一问题:(i)贝叶斯估计,模型从顺序证据中推断未知参数;(ii)贝叶斯预测,模型将对潜在变量的推断信念转化为结果预测;(iii)潜在框架下的贝叶斯预测,其中观测通过用户角色框架进行过滤,需要对潜在状态和角色进行联合推断。在七个LLMs(3B–70B)上,规模提升改善了潜在推理和证据积累,更新有时能匹配贝叶斯后验。然而,这些提升并未可靠地迁移到下游预测任务,揭示了推断潜在结构与其理性更新关于目标结果的信念之间存在差距。

## 提交历史

来自:Ankur Samanta [查看电子邮件](https://arxiv.org/show-email/c97c227a/2606.30850) **\[v1\]** 2026年6月29日星期一 19:30:32 UTC(852 KB)

相似文章

基于概率信念追踪的多轮人类可说服性模型

arXiv cs.CL

本文介绍了PersuasionTrace,一个用于研究人机交互中多轮说服的框架,采用贝叶斯网络模拟目标来建模信念更新。该框架揭示了大语言模型在多种主题和模态下具有说服力,并且贝叶斯目标比普通大语言模型模拟器更符合人类信念动态。

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。

大规模语言模型的概率归因

arXiv cs.CL

本文提出了一种与模型无关的基于概率的令牌归因度量,利用贝叶斯规则反转下一个令牌的对数概率,捕捉模型对令牌序列的内部表示,并通过熵分析提高可解释性。