MM++: 通过Top-K门控特征融合实现无监督尺度不变多层OOD检测
摘要
MM++是一个完全无监督的事后分布外检测框架,通过Top-K门控特征融合融合具有判别性的中间层,并使用正则化的绑定协方差矩阵进行尺度不变距离估计。
arXiv:2606.17352v1 公告类型:新
摘要:我们提出MM++(多层Mahalanobis++),一个完全无监督、严格事后且尺度不变的分布外检测框架。为了解决尺度不变性与层次表达性之间的权衡,MM++构建了一个有原则的联合特征空间。它首先通过测量熵密度下降来识别具有判别性的中间层,这些下降标志着尖锐语义压缩的边界。通过将这些选定的层与终端表示融合,该框架捕获潜在的跨层相关性,同时减轻早期层噪声。关键是,Ledoit-Wolf正则化的绑定协方差矩阵稳定了这个统一空间,实现了可靠的距離估计。不需要辅助OOD数据、分类器微调或架构修改,MM++在不同架构上为近OOD和远OOD检测提供稳健的性能。
查看缓存全文
缓存时间: 2026/06/17 05:37
# 无监督尺度不变多层OOD检测通过Top-K门控特征融合
来源:https://arxiv.org/html/2606.17352
Rahim Hossain Md Tawheedul Islam Bhuian Md Farhan Shadiq Kyoung\-Don Kang 计算学院 纽约州立大学宾汉姆顿分校 \{rhossain, mislambhuian, mshadiq, kang\}@binghamton\.edu
###### 摘要
我们提出MM\+\+(多层马氏距离\+\+),一种完全无监督、严格事后且尺度不变的外分布(OOD)检测框架。为了解决尺度不变性与层次表达性之间的权衡,MM\+\+构建了一个原则性的联合特征空间。它首先通过测量熵密度下降(标记急剧语义压缩边界)来识别具有判别性的中间层。通过将这些选定层与终端表示融合,该框架捕获潜在的跨层相关性,同时减轻早期层噪声。关键地,Ledoit–Wolf正则化的绑定协方差矩阵稳定了这个统一空间,从而实现可靠的距离估计。MM\+\+不需要辅助OOD数据、分类器微调或架构修改,在多种架构上为近OOD和远OOD检测提供稳健性能。
## 1 引言
深度神经网络(DNN)取得了显著成功,但在开放世界环境中部署时,往往对分布外(OOD)输入产生过度自信的预测。这种行为在医疗诊断和自动驾驶等安全关键应用中带来重大风险[48,28]。因此,可靠的OOD检测仍然是可信DNN部署的基本要求。
这种过度自信的一个关键驱动因素是称为神经坍缩的几何现象[32]。在训练期间,DNN将分布内(ID)表示压缩成高度结构化、低维的类别质心,抑制了类内变异性。虽然提高了分类精度,但这种终端压缩降低了表示多样性,导致OOD样本投影到ID类结构附近并产生过度自信的预测。
为了在不重新训练的情况下缓解这一问题,事后方法通常利用中间表示[19,35,40,31]。基于马氏距离的方法[19]将特征激活建模为类条件高斯分布。为了解决特征尺度敏感性,Mahalanobis\+\+[31]在距离计算之前通过单位超球面投影引入尺度不变性。然而,仅作用于终端压缩的倒数第二层限制了其捕获对检测近OOD样本至关重要的中层结构线索的能力。
像Mahalanobis[19]和X-Mahalanobis[45]这样的多层方法包含了中间层,但本质上将逐层表示视为独立边缘分布,依赖各个分数的加性融合。这种数学简化丢弃了跨层条件依赖性。因此,它们不太能够检测层次不一致性——即异常样本在个别层模仿ID特征,但违反了它们之间预期的演化轨迹。
此外,聚合这些独立分数需要利用代理OOD验证集进行回归融合权重或分类器微调。这违反了严格事后假设,使检测器偏向于辅助异常的具体几何结构。
如果加性分数聚合的根本问题仍然存在,那么将Mahalanobis\+\+的尺度不变性与X-Mahalanobis的多层提取进行简单整合仍然是有限的。稳健的多层OOD检测需要建模特征层次的统一联合分布,由内源ID几何驱动,而不是加性分数融合。
为了解决这个问题,我们提出MM\+\+(多层马氏距离\+\+),一个完全无监督、尺度不变且严格事后的框架。MM\+\+摒弃了临时的逐层权重和分数相加。相反,它将超球面归一化扩展到中间表示,并引入一个Top-KK信息门控机制,系统选择信息量最大的层。
具体地,我们使用通过Ledoit–Wolf收缩[18]估计的协方差熵来量化逐层信息量。我们推导出熵密度下降(Δl\\Delta\_\{l\})来识别经历最急剧语义压缩的层。倒数第二层作为锚点,而基于Δl\\Delta\_\{l\}选择前K−1K-1个中间层,确保关注具有最具判别性结构转换的表示。
所选l2\\ell\_\{2\}归一化特征被拼接成一个统一表示,在此计算单个联合Mahalanobis\+\+距离。通过共享精度矩阵(通过Ledoit–Wolf收缩估计)建模跨层依赖性,MM\+\+有效地惩罚表现出异常层次轨迹的样本。概念上,这种融合机制跨异构架构通用,因为它作用于归一化中间特征,不需要显式的逐层权重或架构特定的设计选择(见图1)。
参照图例图1:MM\+\+框架概述。通过Top-KK门控特征融合的无监督、尺度不变多层OOD检测(以K=2K=2、ConvNeXt-T在ImageNet-LT上为ID、ImageNet-C为OOD为例)。左侧(流程):MM\+\+首先利用熵密度下降识别前KK层,以捕获最大跨层压缩,锚定倒数第二层。这些中间和终端特征被拼接成统一表示φ\(x\)\\phi\(x\),通过良好条件化、收缩的绑定协方差矩阵(Σ^K,shrink\\hat\{\\Sigma\}\_\{\\mathcal\{K\},\\text\{shrink\}\})稳定。中心(特征空间):在这个统一空间中,ID样本紧密聚集在已建立的类质心周围(产生小的Mahalanobis\+\+距离dM2d\_\{M\}^\{2\}),而OOD样本被明确推到外围。右侧(分布):因此,MM\+\+显著收紧ID密度并隔离OOD分布。通过将OOD样本推入负尾部,与最先进的基线相比,它实现了更高的可分离性并减少了ID-OOD重叠。
贡献。
MM\+\+:一个统一的多层框架。我们提出了一个完全无监督、严格事后的框架,将多层范式从加性分数聚合转变为联合特征空间建模。MM\+\+整合了 (i) 使用协方差熵和熵密度下降的层选择机制;(ii) 与架构无关的以倒数第二层为锚点的ℓ2归一化特征拼接;(iii) 一个单一的联合Mahalanobis\+\+估计器,带有Ledoit–Wolf正则化精度矩阵,以显式捕获跨层依赖性。它不需要代理OOD数据或微调,只引入单个超参数(KK)。
经验验证。我们在全局注意力(ViTs)、层次注意力(Swin)和卷积(ConvNeXt)骨干上评估MM\+\+。与专门的方法如X-Mahalanobis[45](针对Transformer和平衡数据设计)不同,MM\+\+提供了更通用的解决方案。它在ViTs上持续提供稳健性能,同时将最先进的多层OOD检测扩展到卷积和层次范式。此外,在长尾ImageNet-LT场景中,MM\+\+在具有挑战性的近OOD基准测试(ImageNet-V2、-C、-ES、-R)上持续优于基线,展示了对抗架构变化和类别不平衡的更高韧性。
## 2 相关工作
OOD检测已经从简单的基于输出的启发式方法发展到分析深度表示几何结构的方法[48,28]。我们将先前工作分为五个方向,重点是与我们设置最相关的事后方法。我们排除基于训练的方法,如[13,37,6,15,30,41,27,34,8],因为它们需要额外训练,且与本文考虑的严格事后范式正交。
基于输出和Logit的方法。早期事后方法依赖最终网络输出。[12]表明最大softmax概率通常对OOD样本较低。ODIN[20]通过温度缩放和输入扰动提高可分离性,而基于能量的分数[23]通过能量模型视角重新解释logits。尽管这些方法高效,但它们受限于依赖最终线性分类层的低维输出,丢弃了丰富的中间表示,并限制了对可能对稳健OOD检测有用的几何结构(例如与神经坍缩相关的结构)的访问。
基于特征和几何的方法。为了克服这个限制,基于特征的方法操作在预logit空间。一个开创性方法是马氏距离[19],它将特征建模为具有共享协方差的类条件高斯分布,并测量到类中心的距离。扩展包括非参数方法如k-近邻[40]和相对马氏距离变体[35]。这些方法也已应用于视觉之外的领域,包括语言建模[16]和医学影像[2,44]。然而,它们的有效性依赖于简化分布假设(如高斯性),这通常与现代架构中观察到的复杂、各向异性特征几何不一致[3,31]。
尺度不变性与特征修正。现代架构通常产生具有显著幅度变化的特征嵌入,这可能扭曲基于距离的度量。ReAct[39]通过截断极端激活来解决这个问题。最近,Mahalanobis\+\+[31]通过在距离计算之前将特征投影到单位超球面引入了尺度不变性。这通过减少范数引起的偏差提高了稳健性,但仍然局限于倒数第二层。
多层与层次检测。深度网络按层次编码信息,从低级特征到高级语义。受此启发,多层方法旨在跨深度检测OOD信号[19,22,40]。特别地,X-Mahalanobis[45]试图通过密集聚合逐层距离分数来捕获分布偏移。虽然概念上无监督,但它依赖于对任务特定线性头进行参数高效微调,这在实际中并非严格事后。此外,其通过基于方差的加权进行的密集聚合方案可能分配给早期层非可忽略的权重,这可能使高方差的空间噪声传播并干扰对于可靠OOD检测至关重要的深层语义表示。
协方差熵与稀疏化。近期理论强调了信息瓶颈原则[42]和神经坍缩[32],其中深度特征随着语义信息变得日益对齐而集中到低维子空间,噪声变异被逐步抑制。这些表示的结构可以通过协方差特征谱的熵来量化[9,17,1]。表现出熵急剧下降的层(表示快速语义压缩)可能对应于层次表示中的关键转折点。然而,基于原始熵值的标准软加权方案不会在层间引入稀疏性,因此保留了来自压缩较少表示的贡献。这可能会将残余的早期层变异性引入聚合表示[29,38]。更根本地,这种连续加权模糊了表示几何中的离散结构变化,使得难以定位压缩边界。受此观察启发,我们转而寻求一个离散准则,以识别表示复杂性中的突变。具体地,我们定义熵密度下降来检测协方差结构中的急剧转变,并将这些作为选择一小部分语义压缩层的指标。这实现了选择性的Top-KK门控,强调坍缩后表示,同时抑制高方差的早期层信号。
与我们的工作的联系。MM\+\+建立在这些方向之上,以在严格事后设置中调和层次表达性与终端压缩之间的固有权衡。它将Mahalanobis\+\+的尺度不变ℓ2归一化扩展到多层框架,用原则性的Top-KK信息门控机制取代启发式聚合(例如X-Mahalanobis[45]使用的基于方差加权)。具体地,我们通过熵密度下降分析ID特征谱,以精确定位急剧语义压缩的边界。我们锚定终端层,选择K−1K-1个信息量最大的中间阶段,通过与架构无关的拼接将特征融合到一个统一表示空间。这个联合空间通过Ledoit–Wolf正则化的绑定协方差矩阵稳定,使得单个Mahalanobis\+\+距离能够捕获关键的跨层几何交互,同时抑制来自早期层或欠表征类别的高方差噪声。因此,MM\+\+在近OOD和远OOD检测中均实现了稳健性能。相似文章
不要压缩你的特征:为什么CenterLoss会损害OOD检测,而多尺度马氏距离胜出
本文介绍了GOEN,一种结合多尺度特征、L2归一化和马氏距离的OOD检测流水线,并发现CenterLoss正则化虽然提高了分类准确率,但实际上会降低OOD性能。
幻觉检测中的自动层选择
本文提出了用于大语言模型幻觉检测的自动层选择方法,并引入了固有维度首个有效峰值(FEPoID),这是一种无需训练的标准,能够一致地识别出最优中间层,优于现有启发式方法。
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
面向模态异质性下的鲁棒联邦多模态图学习
本文提出FedMPO,一种鲁棒的联邦多模态图学习方法,通过拓扑感知的跨模态生成、缺失感知的专家路由和可靠性感知的聚合来解决模态异质性和缺失模态问题,在多个数据集上实现了性能提升。