大型语言模型黑盒不确定性估计方法的系统性评估
摘要
本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试,发现没有任何单一方法占主导地位,但结合多种不确定性信号的混合方法表现出色。
arXiv:2606.19868v1 公告类型:新
摘要:尽管大型语言模型(LLM)在广泛的任务中展现出强大的能力,但其输出通常仍不可靠,且可能包含幻觉,这使得不确定性估计(UE)对于构建可信赖的LLM至关重要。在实际应用中,许多主流LLM仅通过受限API访问,无法获取logits和隐藏状态等内部信号,使得黑盒UE尤为重要。然而,现有关于LLM黑盒UE的研究在方法上仍支离破碎,缺乏统一的实证比较。为填补这一空白,我们对黑盒UE方法进行了系统性回顾,并将其分为五类:基于语言表达、基于采样、基于解释、多智能体和混合方法。我们还构建了统一的评估框架,并对4种模型和4种数据集设置下的24种代表性方法进行了基准测试。结果表明,没有一种方法在所有设置中持续占优。尽管如此,在答案空间中对候选方案进行推理和比较的方法普遍有效,而结合多种不确定性信号的混合方法在大多数条件下表现良好。通过发布基准数据和统一评估框架,我们旨在促进可重复比较并支持未来研究,同时我们的实证结果为开发未来的LLM黑盒UE方法提供了实用指导。
查看缓存全文
缓存时间: 2026/06/20 14:33
# 大型语言模型黑盒不确定性估计方法的系统评估 来源: https://arxiv.org/abs/2606.19868 查看PDF (https://arxiv.org/pdf/2606.19868) > 摘要:尽管大型语言模型 \(LLMs\) 在广泛的任务中展现出强大能力,但其输出往往不可靠,可能包含幻觉,因此不确定性估计 \(UE\) 对于构建可信赖的 LLMs 至关重要。实践中,许多主流 LLMs 仅通过受限 API 访问,内部信号(如 logits 和隐藏状态)不可用,这使得黑盒 UE 尤为重要。然而,现有关于 LLMs 黑盒 UE 的研究在方法论上仍较为零散,缺乏统一的实证比较。为弥补这一空白,我们对黑盒 UE 方法进行了系统梳理,并将其归纳为五类:基于口头表达、基于采样、基于解释、多智能体和混合方法。我们进一步构建了一个统一的评估框架,并针对 4 个模型和 4 个数据集设置对 24 种代表性方法进行了基准测试。结果表明,没有任何单一方法在所有设置中始终保持优势。尽管如此,在答案空间中进行推理和比较候选答案的方法通常有效,而结合多种不确定性信号的混合方法在大多数条件下表现良好。通过发布基准数据和统一评估框架,我们旨在促进可重复比较并支持未来研究,同时我们的实证发现为开发未来 LLMs 黑盒 UE 方法提供了实用指导。 ## 提交历史 来自: Jiayi Wang [查看电子邮件 (https://arxiv.org/show-email/2ea5a357/2606.19868)] **\[v1\]**2026年6月18日,星期四 07:27:34 UTC (2,408 KB)
相似文章
大语言模型可信性无训练方法的系统研究
一项系统性研究,评估了改进大语言模型可信性的无训练方法,将方法分为输入、内部和输出级干预,同时分析可信性、实用性和鲁棒性之间的权衡。
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
一种更优的识别大语言模型过度自信的方法
MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。
大型语言扩散模型的不确定性量化
本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。