大型语言模型黑盒不确定性估计方法的系统性评估

arXiv cs.AI 2026/06/20 04:00 论文

uncertainty-estimation black-box large-language-models evaluation benchmark llm-reliability systematic-review

摘要

本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试，发现没有任何单一方法占主导地位，但结合多种不确定性信号的混合方法表现出色。

arXiv:2606.19868v1 公告类型：新摘要：尽管大型语言模型（LLM）在广泛的任务中展现出强大的能力，但其输出通常仍不可靠，且可能包含幻觉，这使得不确定性估计（UE）对于构建可信赖的LLM至关重要。在实际应用中，许多主流LLM仅通过受限API访问，无法获取logits和隐藏状态等内部信号，使得黑盒UE尤为重要。然而，现有关于LLM黑盒UE的研究在方法上仍支离破碎，缺乏统一的实证比较。为填补这一空白，我们对黑盒UE方法进行了系统性回顾，并将其分为五类：基于语言表达、基于采样、基于解释、多智能体和混合方法。我们还构建了统一的评估框架，并对4种模型和4种数据集设置下的24种代表性方法进行了基准测试。结果表明，没有一种方法在所有设置中持续占优。尽管如此，在答案空间中对候选方案进行推理和比较的方法普遍有效，而结合多种不确定性信号的混合方法在大多数条件下表现良好。通过发布基准数据和统一评估框架，我们旨在促进可重复比较并支持未来研究，同时我们的实证结果为开发未来的LLM黑盒UE方法提供了实用指导。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:33

# 大型语言模型黑盒不确定性估计方法的系统评估
来源: https://arxiv.org/abs/2606.19868
查看PDF (https://arxiv.org/pdf/2606.19868)

> 摘要:尽管大型语言模型 \(LLMs\) 在广泛的任务中展现出强大能力，但其输出往往不可靠，可能包含幻觉，因此不确定性估计 \(UE\) 对于构建可信赖的 LLMs 至关重要。实践中，许多主流 LLMs 仅通过受限 API 访问，内部信号（如 logits 和隐藏状态）不可用，这使得黑盒 UE 尤为重要。然而，现有关于 LLMs 黑盒 UE 的研究在方法论上仍较为零散，缺乏统一的实证比较。为弥补这一空白，我们对黑盒 UE 方法进行了系统梳理，并将其归纳为五类：基于口头表达、基于采样、基于解释、多智能体和混合方法。我们进一步构建了一个统一的评估框架，并针对 4 个模型和 4 个数据集设置对 24 种代表性方法进行了基准测试。结果表明，没有任何单一方法在所有设置中始终保持优势。尽管如此，在答案空间中进行推理和比较候选答案的方法通常有效，而结合多种不确定性信号的混合方法在大多数条件下表现良好。通过发布基准数据和统一评估框架，我们旨在促进可重复比较并支持未来研究，同时我们的实证发现为开发未来 LLMs 黑盒 UE 方法提供了实用指导。

## 提交历史

来自: Jiayi Wang [查看电子邮件 (https://arxiv.org/show-email/2ea5a357/2606.19868)] **\[v1\]**2026年6月18日，星期四 07:27:34 UTC (2,408 KB)

大型语言模型黑盒不确定性估计方法的系统性评估

相似文章

大语言模型可信性无训练方法的系统研究

大语言模型不确定性中的人类对齐、校准与激活模式

一种更优的识别大语言模型过度自信的方法

大型语言扩散模型的不确定性量化

大型语言模型能否对检索到的信息保持审慎态度？

提交意见反馈