证据深度学习的变分推断
摘要
提出了一种数学上严格的框架——变分推断的深度证据学习(VI-EDL),通过变分推断重新表述传统深度证据学习,推导出证据下界,建立泛化界,并在视觉和医学数据集上实现了最先进的性能,以解决传统深度证据学习的局限性。
arXiv:2605.26477v1 公告类型: 新
摘要:尽管深度神经网络(DNN)取得了显著性能,但其倾向于产生过度自信的预测。深度证据学习(EDL)通过将预测表示为类概率上的狄利克雷分布来显式量化认知不确定性,从而缓解了这一问题。然而,我们发现传统的EDL存在两个基本限制:一个仅抑制负类证据的Kullback-Leibler(KL)惩罚项,导致产生过高的证据,从而降低模型量化不确定性的能力;以及缺乏设置狄利克雷参数$\alpha=e+1$的理论保证。在本文中,我们提出了一个数学上严格的框架——变分推断的深度证据学习(VI-EDL)。通过从变分推断的角度重新表述证据学习,我们推导出证据下界(ELBO),该下界防止证据过度增长。在理论上,我们严格建立了泛化界,并揭示了预测不确定性、特征和网络复杂度如何影响该界,以及为什么设置$\boldsymbol{\alpha} = \mathbf{e} + \mathbf{1}$可以最小化该界。在标准视觉和医学数据集上的大量实验表明,VI-EDL实现了最先进的性能,在分布外检测、噪声检测和自动驾驶场景中表现出色。代码可在https://github.com/seutjw/VI-EDL获取。
查看缓存全文
缓存时间: 2026/05/27 09:11
# 面向证据深度学习的变分推断
来源:https://arxiv.org/html/2605.26477
Jiawei Tang, Xinyan Du, Hui Liu, Junhui Hou, , 和 Yuheng JiaJiawei Tang 和 Xinyan Du 任职于东南大学计算机科学与工程学院,南京 210096,中国。Hui Liu 任职于圣方济各大学计算信息科学学院,香港特别行政区,中国。Junhui Hou 任职于香港城市大学计算机科学系,香港特别行政区,中国。Yuheng Jia 任职于东南大学计算机科学与工程学院,南京 210096,中国,同时任职于教育部新一代人工智能技术及其跨学科应用(东南大学)重点实验室。
###### 摘要
虽然深度神经网络 (DNN) 取得了显著性能,但它们倾向于产生过于自信的预测。证据深度学习 (EDL) 通过将预测公式化为类别概率上的狄利克雷分布来显式量化认知不确定性,从而缓解了这一问题。然而,我们发现传统 EDL 存在两个根本性局限:一是仅抑制负类证据的 Kullback–Leibler (KL) 惩罚项,导致证据异常高,从而降低了模型量化不确定性的能力;二是设置狄利克雷参数 $\alpha = e + 1$ 缺乏理论保证。在本文中,我们提出了一个数学上严谨的框架——变分推断证据深度学习 (VI-EDL)。通过从变分推断的角度重新构造证据学习,我们推导出一个证据下界 (ELBO),该下界能够防止证据过度增长。在理论上,我们严格建立了一个泛化界,揭示了预测的不确定性、特征和网络复杂度如何影响该界限,以及为何设置 $\boldsymbol{\alpha} = \mathbf{e} + \mathbf{1}$ 可以使其最小化。在标准视觉和医学数据集上的大量实验表明,VI-EDL 取得了最先进的性能,在分布外检测、噪声检测和自动驾驶场景中表现出色。代码可在 https://github.com/seutjw/VI-EDL 获取。
## I. 引言
深度神经网络 (DNN) 在各种预测任务中取得了显著成功 [22](https://arxiv.org/html/2605.26477#bib.bib1), [15](https://arxiv.org/html/2605.26477#bib.bib2)。然而,它们倾向于产生过度自信的点估计 [14](https://arxiv.org/html/2605.26477#bib.bib3), [28](https://arxiv.org/html/2605.26477#bib.bib4)——即使在遇到分布外 (OOD) 样本时 [16](https://arxiv.org/html/2605.26477#bib.bib5), [34](https://arxiv.org/html/2605.26477#bib.bib6), [23](https://arxiv.org/html/2605.26477#bib.bib30), [26](https://arxiv.org/html/2605.26477#bib.bib31), [25](https://arxiv.org/html/2605.26477#bib.bib32)——这仍然是部署到安全关键领域(如自动驾驶 [18](https://arxiv.org/html/2605.26477#bib.bib7), [10](https://arxiv.org/html/2605.26477#bib.bib8), [27](https://arxiv.org/html/2605.26477#bib.bib25) 和生物医学应用 [9](https://arxiv.org/html/2605.26477#bib.bib9))的关键瓶颈。虽然贝叶斯神经网络 [4](https://arxiv.org/html/2605.26477#bib.bib29) 和 MC-Dropout [11](https://arxiv.org/html/2605.26477#bib.bib28) 提供了一些解决方案,但它们通常需要计算昂贵的多次采样。为了解决这个问题,证据深度学习 (EDL) [30](https://arxiv.org/html/2605.26477#bib.bib10) 作为一种有前景的范式出现。EDL 不是应用标准 softmax 函数来输出确定性的概率,而是将预测流程重构为基于证据的链。具体来说,EDL 通过估计一个类别概率分布而不是提供单一的点估计,重新定义了标准分类范式。
EDL 将预测的类别概率分布建模为狄利克雷分布 [17](https://arxiv.org/html/2605.26477#bib.bib11), [7](https://arxiv.org/html/2605.26477#bib.bib12)。给定输入 $\mathbf{x}$,使用神经网络 $f_\theta$ 提取非负证据向量 $\mathbf{e} = [e_1, \dots, e_K] \geq 0$ 用于 $K$ 个类别,通常使用诸如 Softplus 之类的激活函数。然后,该证据向量用于参数化狄利克雷分布 $\text{Dir}(\mathbf{p}|\boldsymbol{\alpha})$,其中 $\boldsymbol{\alpha}$ 是狄利克雷参数 $\boldsymbol{\alpha} = [\alpha_1, \dots, \alpha_K]$,每个元素定义为 $\alpha_k = e_k + 1, \forall k \in [1, 2, \dots, K]$,而期望的类别概率向量为 $\mathbf{p} = [\hat{p}_1, \dots, \hat{p}_K]$。相应地,不确定性通过 $u = K / S$ 量化,期望类别概率为 $\hat{p}_k = \alpha_k / S$,其中 $k \in [1, 2, \dots, K]$,且 $S = \sum_{k=1}^K \alpha_k$。
为了训练模型,标准 EDL 最小化期望均方误差 (MSE) 风险。该项衡量真实标签向量 $\mathbf{y} = [y_1, \dots, y_K] \in \{0,1\}^K$ 与期望类别概率向量 $\mathbf{p}$ 之间的期望差异。通过在单纯形上评估期望,该目标隐式地最小化了预测的方差。此外,为了防止模型为错误类别生成误导性证据,引入了一个 Kullback-Leibler (KL) 散度项。它惩罚预测分布(排除真实类别的证据)与平坦狄利克雷分布 $\text{Dir}(\mathbf{p}|\mathbf{1})$(其中 $\mathbf{1}$ 表示全一向量)之间的散度。
标准 EDL 的总体损失函数公式为:
$$
\mathcal{L}_{EDL} = \underbrace{\mathbb{E}_{\mathbf{p} \sim \text{Dir}(\boldsymbol{\alpha})} \left[ \|\mathbf{y} - \mathbf{p}\|_2^2 \right]}_{\text{期望 MSE}} + \lambda_t \cdot \underbrace{D_{KL} \left( \text{Dir}(\mathbf{p}|\tilde{\boldsymbol{\alpha}}) \parallel \text{Dir}(\mathbf{p}|\mathbf{1}) \right)}_{\text{KL 散度惩罚}},
$$
其中 $\lambda_t$ 是退火系数,在初始训练阶段逐渐增大 KL 惩罚,而 $\tilde{\boldsymbol{\alpha}} = \mathbf{y} + (\mathbf{1} - \mathbf{y}) \odot \boldsymbol{\alpha}$ 表示遮罩了真实类别证据后的修正狄利克雷参数,其中 $\mathbf{1} \in \mathbb{R}^K$ 表示全一向量。
尽管概念优雅,但传统的 EDL 框架存在两个缺点:
- • 在 EDL 中,KL 散度项仅抑制负类证据,而对正类证据不加约束。这本质上激励网络采取优化捷径,盲目放大特征和权重幅度,以产生过高的目标证据。受 MSE 项的驱动,网络倾向于充当数值放大器,并不可避免地甚至将非语义的随机噪声映射为巨大的虚假证据。这直接降低了模型量化不确定性的能力。
- • EDL 使用启发式定义的函数 $\boldsymbol{\alpha} = \mathbf{e} + \mathbf{1}$ 将生成的证据 $\mathbf{e}$ 映射到狄利克雷参数 $\boldsymbol{\alpha}$。尽管经验上有效,但这种公式缺乏原则性的数学证明。
在这项工作中,我们提出通过以概率框架重建 EDL 框架来解决这两个问题。我们将证据提取过程转化为变分推断 (VI) [3](https://arxiv.org/html/2605.26477#bib.bib13) 问题,并推导出一个严格的证据下界 (ELBO) [19](https://arxiv.org/html/2605.26477#bib.bib24),有机地恢复了 EDL 范式的贝叶斯合法性。此外,ELBO 的形式也自然地规定了所有类别上的全局正则化,从结构上防止了由幅度引起的过度自信。另外,我们还为证据网络设计了一个余弦原型层,以进一步控制生成证据的幅度。
此外,我们的框架为启发式映射 $\boldsymbol{\alpha} = \mathbf{e} + \mathbf{1}$ 提供了确定性的理论闭合。通过在概率模型中施加广义狄利克雷先验 $\text{Dir}(\boldsymbol{\lambda})$,我们的变分公式通过贝叶斯共轭更新严格推导出后验参数化为 $\boldsymbol{\alpha} = \mathbf{e} + \boldsymbol{\lambda}$。因此,我们进行了严格的泛化界分析,从理论上证明将先验参数设置为 $\boldsymbol{\lambda} = \mathbf{1}$ 可以最优地最小化泛化误差界。这一发现回顾性地验证了标准 EDL 的经验设计,同时将其牢固地建立在统计学习理论基础上。
本工作的主要贡献总结如下:
- • **EDL 的原则性变分框架**:我们使用变分推断 (VI-EDL) 为证据目标提供了新颖的概率推导。通过将证据生成公式化为共轭更新,我们用数学上严格的 ELBO 替换了启发式项,保证了模型的理论合理性和可解释性。结合余弦原型层,它还防止了所有类别的证据过度增长。
- • **理论泛化保证**:我们解析地推导了我们提出的模型的泛化界,并深入探讨了若干理论见解。在第四节-B 中,我们证明了预测的不确定性(见解 3)、特征和网络复杂度(见解 4)会影响该界限,并且设置 $\boldsymbol{\alpha} = \mathbf{e} + \mathbf{1}$ 可以使其最小化(见解 2)。因此,我们填补了标准 EDL 的基本理论空白。
- • **广泛的经验验证**:我们在各种基准测试上评估了我们的框架,包括标准视觉数据集和医学数据集。实验结果表明,VI-EDL 显著优于最先进的证据基线方法,在分布外检测、噪声检测和自动驾驶场景中取得了卓越的性能。
本文的其余部分组织如下。第二部分简要回顾了不确定性估计和证据深度学习方面的相关文献。第三部分详细阐述了所提出的变分推断证据深度学习 (VI-EDL) 框架,包括证据下界的推导和余弦原型层的设计。第四部分对我们的方法进行了严格的理论分析,建立了泛化界并深入探讨了其见解。第五部分展示了广泛的实验结果、消融研究和鲁棒性分析,在多个基准测试上证明了所提方法的优越性。最后,第六部分总结本文并展望未来的研究方向。
## II. 相关工作
证据深度学习 (EDL) 作为一种可扩展且确定性的不确定性量化方法,已获得广泛关注。由 Sensoy 等人 [30](https://arxiv.org/html/2605.26477#bib.bib10) 开创,标准 EDL 利用主观逻辑将 DNN 输出映射到狄利克雷分布的参数,从而估计类别概率和认知不确定性。遵循这一范式,一系列研究致力于改进证据模型。I-EDL [8](https://arxiv.org/html/2605.26477#bib.bib15) 结合 Fisher 信息矩阵来评估样本携带的证据信息量。Re-EDL [6](https://arxiv.org/html/2605.26477#bib.bib14) 将狄利克雷先验权重视为可调整的超参数,提供了更灵活且简化的优化目标。F-EDL [36](https://arxiv.org/html/2605.26477#bib.bib16) 引入灵活的狄利克雷分布,以捕捉更具表现力和适应性的不确定性表示。
除了理论进展外,EDL 确定性不确定性量化的能力已促进其在各种安全关键领域的广泛应用。在医学领域,证据模型已成功应用于疾病诊断和医学图像分析 [24](https://arxiv.org/html/2605.26477#bib.bib33), [1](https://arxiv.org/html/2605.26477#bib.bib34),其中可靠的不确定性估计对于临床决策至关重要。类似地,在自动驾驶系统中,EDL 已被广泛用于鲁棒感知和多模态传感器融合 [13](https://arxiv.org/html/2605.26477#bib.bib35), [35](https://arxiv.org/html/2605.26477#bib.bib36),有效处理来自嘈杂、开放世界环境的信息冲突和不确定性。此外,最近的研究已将证据框架扩展到生物信息学和分子性质预测 [32](https://arxiv.org/html/2605.26477#bib.bib37),为复杂领域数据提供可信的预测。
虽然这些 EDL 方法展示了经验上的进展,但它们共享一个关键弱点:未能对正类证据的无界增长施加任何限制。我们提出的 VI-EDL 解决了这种由幅度引起的过度自信。通过严格从证据下界 (ELBO) 推导证据目标并强制执行余弦原型证据层,我们的框架严格限制了可达的最大证据,确保了证据模型在复杂环境中的可靠性。
## III. 提出的方法
在本节中,我们从变分推断 (VI) 的概率角度重建证据深度学习。我们首先将分类任务公式化为一个潜变量生成模型,并推导出证据下界 (ELBO) 目标。随后,我们引入一个距离感知的余弦原型证据网络来生成证据。
### III-A. 符号说明
设 $\mathcal{X} \subset \mathbb{R}^{n \times d}$ 为 $K$ 类分类任务的输入空间。给定输入 $\mathbf{x} \in \mathcal{X}$,真实标签表示为独热向量 $\mathbf{y} = [y_1, ..., y_K] \in \{0,1\}^K$,其中如果样本属于类别 $k$,则 $y_k = 1$,否则 $y_k = 0$。设 $\mathbf{p} = [p_1, \dots, p_K]$ 表示一个类别概率向量。为了确保有效的概率语义(和为 1),$\mathbf{p}$ 必须位于 $(K-1)$ 维单位单纯形上,即 $\sum_{k=1}^K p_k = 1$ 且 $\forall k \in [1, 2, ..., K], p_k \geq 0$。
### III-B. EDL 的变分推断框架
**变分后验与 ELBO。** 从概率的角度,我们将类别概率分布 $\mathbf{p}$ 视为一个潜变量。在纯分析贝叶斯框架中,我们分配一个狄利克雷先验 Dir(相似文章
通过变分策略蒸馏从语言反馈中学习
变分策略蒸馏(VPD)将语言反馈学习形式化为一个变分期望最大化问题,通过协同训练教师网络和学生网络,改进基于可验证奖励的强化学习中的策略学习。在代码生成和科学推理任务上,该方法相较于基线方法表现出持续改进。
通过具有效率意识的变分后验引导实现高效的大语言模型推理
本文介绍了 VPG-EA 框架,该框架利用变分推断和后验引导,通过解决思维链生成中的“过度思考”现象,提高了大语言模型的推理效率。
TUBE: 离散扩散语言模型证据的切线上界
介绍TUBE,一种用于离散扩散语言模型的对数似然变分上界,实现更好的评估,并揭示掩码扩散模型仍不如自回归模型。
变分选项发现算法
OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。
主动推断是哪种类型的推断?
本文通过证明增广生成模型的变分自由能(VFE)可以分解为预测模型的VFE加上显式熵修正项,对基于期望自由能(EFE)的规划给出了完整的变分刻画。作者推导了一种用于EFE规划的消息传递方案,并在网格世界环境中进行了验证。