UnpredictaBench:评估大语言模型分布随机性的基准

arXiv cs.CL 论文

摘要

UnpredictaBench是一个用于评估大语言模型从目标分布(包括统计和自然语言随机过程)中采样能力的基准。实验表明,当前模型难以捕捉真实的底层分布,在KS@100指标上没有模型超过40%。

arXiv:2606.06622v1 Announce Type: new 摘要:我们提出了UnpredictaBench,这是一个评估大语言模型(LLM)捕捉真实底层分布能力的测试。随着LLM越来越多地被用作其他实体(例如,在经济模拟中替代人类)的替代品,许多模型倾向于坍缩到单一合理答案的趋势导致其无法捕捉真实系统的不可预测性。最近在提高输出多样性方面的工作不足以应对这一场景:模拟需要校准到目标分布的样本,而不仅仅是多样化的输出。UnpredictaBench提炼了这个问题的一个简化但基础版本:从单个目标分布(包括经典统计分布、随机程序诱导的分布以及描述随机过程的自然语言场景)中采样结果。我们引入了448个这样的问题,以及KS@N这个通用评估指标,该指标通过Kolmogorov-Smirnov统计检验量化模型输出近似黑盒目标分布的程度。该指标衡量的是我们无法拒绝大小为N的模型样本与真实样本之间差异的比率,N越大表示难度越大。在开源和专有模型上的测试显示,分布能力的差异很大。例如,当模型生成大小为100的样本时(KS@100,我们的标准指标),得分从接近0到超过20%不等。没有模型能在KS@100上达到40%以上,表明在分布采样能力方面存在显著的提升空间。虽然增加推理能力可以在一定程度上提高分数,但我们发现这个问题没有直接的解决方案。UnpredictaBench表明,即使简单的分布模拟仍然具有挑战性,这使得它成为使用LLM作为复杂系统替代品的必要第一步。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:19

# UnpredictaBench:评估大语言模型分布随机性的基准测试
来源:https://arxiv.org/html/2606.06622

Amirhossein Abaskohi\* † 1,Amirhossein Dabiriaghdam\* 1,Liang Luo2,Ellie Dingqiao Wen2,Lele Wang1,Giuseppe Carenini1,Peter West1
1不列颠哥伦比亚大学
2独立研究员

###### 摘要

我们提出 **UnpredictaBench**,一项评估大语言模型 (LLM) 捕获真实底层分布能力的测试。随着 LLM 越来越多地被用作其他实体的替代品(例如,在经济模拟中替代人类),许多模型倾向于坍缩到单个看似合理的答案,这意味着它们无法捕获真实系统的*不可预测性*。近期关于提高输出多样性的工作不足以应对这一场景:模拟需要的样本需与目标分布校准,而不仅仅是多样化的输出。UnpredictaBench 提炼了该问题的一个简化但基础的版本:从单个目标分布中采样结果,包括经典统计分布、由随机程序诱导的分布以及描述随机过程的自然语言场景。我们引入了 448 个此类问题,以及 **KS@N**,一个通用的评估指标,它通过柯尔莫哥洛夫-斯米尔诺夫统计检验,量化模型输出的近似黑盒目标分布与真实分布样本的拟合程度。该指标衡量的是我们在固定阈值下无法拒绝模型样本(规模为 N)与真实分布样本之间存在差异的比率,其中 N 越大,难度越高。在开源和闭源模型上的测试结果显示,其分布能力存在巨大差异。例如,当模型生成大小为 100 的样本时(我们的标准指标 KS@100),得分范围从接近 0 到超过 20%。没有模型在 KS@100 上能够达到 40% 以上,这表明分布采样这一能力存在显著的提升空间。尽管增加推理步骤可以略微提高分数,但我们发现这个问题尚无立即可行的解决方案。UnpredictaBench 表明,即使是简单的分布模拟仍然具有挑战性,这使得它成为将 LLMs 用作复杂系统替代品的必要第一步¹¹。

¹¹ 数据集可在 [Hugging Face](https://huggingface.co/datasets/UnpredictaBench/UnpredictaBench) 获取,代码和真实值已在 GitHub (https://github.com/UnpredictaBench/UnpredictaBenchCode) 上发布。

* ¹ 同等贡献。
† ² 通讯作者:[email protected]

## 1 引言

随机性和不确定性是许多知识领域(物理学、生物学、统计学,甚至人类行为)的核心方面,尽管大语言模型 (LLM) 能够推理关于随机性的问题 [28],但它们产生随机性的能力如何尚不清楚。这一点尤其重要,因为这些模型越来越多地被用作模拟其他系统的替代品 [27, 11, 10],用于预测物理结果或建模人类交互(见图 1(b))。为了使这些应用发挥作用,模型必须产生与底层过程*校准*的不确定结果,尽管它们执行此操作的能力并未得到充分评估。近期工作表明,LLM 在估计概率或百分位数时可以部分地推理分布 [28],但这并不能转化为忠实的随机生成。先前的研究已显示出 LLM 在行为模拟 [6]、真实世界分布建模 [29]、混合策略博弈 [8] 乃至简单的随机任务(如抛硬币、掷骰子和随机整数)[13, 9, 40, 4] 方面的失败。

为了系统性地评估这一问题,我们引入了 **UnpredictaBench**,一个测试 LLM 分布随机性的基准测试。

**图 1:** (a) 大多数模型未能重现目标分布,要么缺乏对分布的理解,要么坍缩到狭窄的输出范围。Nemotron-3-Super-120B [23] 是一个值得注意的例外,它相当好地捕获了多峰的 Skellam 结构,而 OLMo-3-7B [24] 将几乎所有质量都集中在接近零的区域,尽管真实的泊松分布远超出了 20。(b) 由于现实世界的系统是随机的,诸如经济模拟和流行病学建模等应用要求 LLM 忠实地再现随机性;分布不匹配可能导致有偏估计、过度自信的预测和误导性的结论。

请参考图注

验证 LLM 的随机正确性在总体上需要评估方面的广泛进展,因此 UnpredictaBench 的目标是测试模型是否能够捕获该问题的一个简单版本:从直接的、单输出分布中采样。该基准测试包含 448 个已知分布、随机代码问题和文字问题。这些问题包括单峰和多峰分布、现实世界问题(例如,多线程中的竞态条件)以及列表洗牌。模型的任务是生成独立样本,并使用一个新指标 **KS@N** 进行评估。简而言之,KS@N 旨在捕获一种分布准确性概念,其基础是模型样本与来自真实分布的黑盒样本,通过一个固定阈值的柯尔莫哥洛夫-斯米尔诺夫检验 [14, 32],不被拒绝的比率。增加 N 自然会增加难度,而 KS@N 仅需要来自真实分布的*样本*。

在 UnpredictaBench 上评估一系列开源和前沿模型后,我们观察到性能存在巨大差异。没有模型在 KS@100(我们的默认设置)上超过 40%,大多数模型的准确率分布在 0% 到 20% 之间,这表明生成一个大小为 100 的合理样本仍然是一个普遍的显著挑战。Nemotron-3-super-120b-a12b [23] 在不同 KS@N 水平上始终名列前茅,而像 GPT-5.4 [26] 和 Claude-sonnet-4.6 [1] 这样的模型在所有任务上的平均准确率分别仅为 15.18% 和 4.7%,低于更小的开源模型,如 Qwen-3.5-2B [30](达到 17.67%)。我们在相关指标(如 Wasserstein 距离和 Jensen-Shannon 散度 [18])上也看到了类似的趋势。定性来看,我们发现了一系列模型失败模式,从坍缩到某个合理模态,到与真实分布完全失准(图 1(a))。诸如推理等干预措施可以有所帮助,但远未解决该问题。就基准难度而言,要求模型从代码和洗牌任务中推断底层分布的任务被证明是最具挑战性的,一些整体表现强劲的模型在后者上的得分坍缩至 0%。UnpredictaBench 的准确率与来自 NoveltyBench [39] 和 CREATE [34] 的效用指标强相关,证实了分布保真度捕获了模型质量的一个真实概念,同时提供了一种统计上严谨的替代方案来替代 LLM 作为评判者的评估 [41]。UnpredictaBench 是理解、评估和改进 LLM 捕获复杂随机性来源能力的第一步。鉴于 LLM 在这个简单场景中的挣扎,我们目前不应期望它们能够捕获更复杂的分布,例如人类行为。该基准测试也为该领域的未来工作提供了一份路线图,通过诸如增加样本量等修改自然地提供了难度递增的版本,并为未来可以重用诸如 KS@N 等元素的基准测试提供了模板。

总的来说,我们的**贡献**如下:
(i) 我们引入了 **UnpredictaBench**,一个包含 448 个测试实例的基准测试,涵盖了跨越文本、代码、现实世界和洗牌场景的多样化任务套件中的 40 个目标分布(包括单峰和多峰设置),评估了超出简单数值提示的分布随机性。
(ii) 我们提出了 **KS@N**,一个重复生成评估指标,比较经验模型输出与真实分布,评估随机保真度而非一次性正确性。
(iii) 我们首次系统性地分析了 LLM 作为统计随机生成器在广泛分布和提示条件下的表现,为未来关于随机性和分布生成的工作提供了一个统一的测试平台。

## 2 相关工作

**概率推理与随机性生成。** 先前的工作已经确定,LLM 可以在上下文支持下进行非平凡的概率推理 [28],但一个一致的发现是,*关于*分布的推理并不能转化为忠实地*从中生成*。Gu 等人 [6] 表明,LLM 可以识别概率结构,但无法准确地从中采样;Plevcko 等人 [29] 表明,LLM 不能忠实地编码真实世界的观测分布;Zhang 等人 [38] 证明,当需要推断潜在分布时,性能会下降。在生成过程中,即使在诸如均匀随机数生成 [9] 这样的简单设置中,LLM 也会失败,其输出反映了类似人类的偏见而非真正的随机性 [13, 40]。Coronado-Blázquez [4] 提供了一项广泛的实证研究,表明模型输出通常出奇地确定,偏向于特定值;Guo 等人 [8] 展示了战略环境中的认知-行为差距:模型可以陈述正确的混合策略,但其实际选择仍然是有偏的。与我们工作最直接相关的是,Gu 等人 [7] 表明,虽然前沿模型可以将提供的随机种子转换为目标分布,但它们直接从指定的分类分布中采样的能力存在根本缺陷。UnpredictaBench 与所有这些工作都不同,它提供了一个涵盖多种分布和任务的统一基准,而不是专注于任何单一设置。

**对齐、不确定性和行为因素。** 另一类工作探究了模型为何表现出较差的随机行为。后训练是一个关键原因:West 和 Potts [35] 表明,基础模型在随机数生成和创造力方面优于对齐模型;Li 等人 [17] 表明,交叉熵微调系统地降低了输出多样性;Zhang 等人 [37] 表明,在温度偏移的自样本上进行微调可以部分恢复多样性。除了训练之外,提示结构也会严重影响表观随机行为 [2]。在不确定性校准方面,原始模型置信度通常校准不佳 [31],并受候选响应之间语义相似性的影响 [20]。最后,Cao 等人 [3] 表明,微调可以改善社会模拟中与人类意见分布的对齐,但输出多样性的持续降低仍然存在。这些发现促使了 UnpredictaBench 的重复输出评估:目标不仅仅是引出多样化的响应,而是测试模型输出是否与目标分布校准。

## 3 UnpredictaBench

在本节中,我们描述 UnpredictaBench 的构建,并总结其任务设计、统计数据以及我们的评估策略,如图 2 所示。我们的目标是评估语言模型是否能够*生成与目标概率分布一致的输出*,而不仅仅是识别或描述它们。

### 3.1 基准测试构建与任务类型

**图 2:UnpredictaBench 流程。** (a) 数据生成。实例从两个来源构建:从 Wikipedia 选择的 40 个分布,GPT-5.4 [26] 基于这些分布生成覆盖 7 个类别的任务;以及 50 个人工策划的、基于真实世界随机过程的任务。(b) 评估。每个任务通过独立查询模型 100 次进行评估,并使用三个指标将经验输出分布与真实参考分布进行比较。

请参考图注

我们首先从 Wikipedia 爬取了概率分布²²。对于每个分布,我们提取了详细信息,包括概率密度/质量函数、均值、众数、中位数、实际应用和关键统计属性。总共收集了 176 个分布。从该池中,我们选择了 **40 个广为人知的分布**(完整分布列表见附录 A 中的表 10),因为我们的基准测试目标是通用语言模型而非统计专家。这些分布构成了所有基准测试任务的基础。

为了构建基准测试实例,我们使用了一个模板化生成流程,将分布信息传递给 GPT-5.4 [26],以生成跨不同任务类型的提示。对于每个自动生成的任务,提示还指定了分布超参数,这些参数被选择用来覆盖集中和扩散两种场景。这使得基准测试能够测试模型是否不仅能适应不同的分布族,还能适应同一分布的不同参数化。此外,**50 个任务**由单一标注者手动构建:30 个现实世界场景任务和 20 个洗牌任务。所有 450 个生成和手动构建的任务随后由两名独立标注者进行审查,结果因未通过质量检查而移除了 2 个任务,最终得到包含 **448 个实例**的基准测试。用于生成和答案提取的确切提示模板见附录 N。

UnpredictaBench 包含 **七个任务类别**,旨在跨不同表示和难度级别探究对分布的理解。

*   **文本类任务:(1) 文本显式 和 (2) 文本隐式。** 文本类任务以自然语言呈现分布。在显式任务中,分布及其参数被完整命名,模型被要求直接生成一个样本。在隐式任务中,会描述一个现实世界场景而不命名底层分布,要求模型

相似文章

评估盲点:大语言模型基准覆盖的体视学理论

arXiv cs.LG

本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。

RedBench:大型语言模型综合红队测试通用数据集

arXiv cs.CL

RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。