类别编码在神经坍缩中的作用

arXiv cs.LG 论文

摘要

本文研究了类别标签编码如何影响神经网络分类器中的神经坍缩,表明在独热编码和平衡数据下,随着偏置正则化增加,未中心化的均值特征从单纯形等角紧框架转变为正交框架。

arXiv:2606.00344v1 公告类型:新 摘要:神经坍缩是神经网络分类模型在训练至零分类误差之后,其最后一个隐藏层激活的一种结构性质。本文基于均方误差训练损失的无限制特征模型,探讨了标签编码在神经坍缩中的作用。我们证明,对于独热编码标签和平衡数据,随着最终分类器偏置正则化系数的增加,与每个类别相关的未中心化均值特征从单纯形等角紧框架转变为正交框架。这些结构让人联想到独热编码标签的正交框架结构。对于任意编码,我们还表明最终分类器的偏置旨在使标签居中,补偿标签的全局均值与原点之间的差异。我们进一步讨论了编码在其他神经坍缩特性中的作用。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:41

# 类编码在神经坍缩中的作用
来源:https://arxiv.org/html/2606.00344
###### 摘要

神经坍缩是神经网络分类模型最后一隐藏层激活值的一种结构特性,当训练超过零分类误差时出现。在这项工作中,我们通过依赖均方误差训练损失的无约束特征模型,探索了标签编码在神经坍缩中的作用。我们证明,对于独热编码标签和均衡数据,当增加与最终分类器相关的偏置正则化系数时,与每个类别对应的非中心均值特征会从单纯形等角紧框架转变为正交框架。这些结构让人联想到独热编码标签的正交框架结构。对于任意编码,我们还表明,最终分类器的偏置旨在对标签进行中心化,补偿标签全局均值与原点之间的差异。我们进一步讨论了编码在其他神经坍缩特性中的作用。

## I引言

神经坍缩(NC)指的是在深度神经网络分类器学习的终端阶段出现的一种现象。所谓终端阶段,指的是训练的最后几个时期,此时训练误差为零(即所有输入都被正确分类),但训练损失仍在进一步降低。文献[17 (https://arxiv.org/html/2606.00344#bib.bib24)] 注意到,最后一隐藏层的激活值出现了某种结构:即来自同一类别的输入对应的激活值会围绕一个均值集中,从而得名“神经坍缩”,并且这些均值向量在中心化后,位于一个单纯形等角紧框架(ETF)的顶点上。这种优美的几何结构被用于设计分布外检测算法[8 (https://arxiv.org/html/2606.00344#bib.bib10)] 和迁移学习方法[5 (https://arxiv.org/html/2606.00344#bib.bib7)] 等;关于 NC 的综述可参阅文献[12 (https://arxiv.org/html/2606.00344#bib.bib16)]。

理解 NC 的出现机制是过去多年来许多研究的焦点。原始工作[17 (https://arxiv.org/html/2606.00344#bib.bib24)] 通过数值实验观察到,使用交叉熵损失训练的、在多种数据集和架构上的分类器都会出现 NC。其他工作进一步探索了不同损失函数下 NC 的发生情况[9 (https://arxiv.org/html/2606.00344#bib.bib11),28 (https://arxiv.org/html/2606.00344#bib.bib35)],并尝试将 NC 推广到中间层[18 (https://arxiv.org/html/2606.00344#bib.bib25),20 (https://arxiv.org/html/2606.00344#bib.bib27),19 (https://arxiv.org/html/2606.00344#bib.bib28)]、回归模型[1 (https://arxiv.org/html/2606.00344#bib.bib1)],或考虑不平衡数据的情形[4 (https://arxiv.org/html/2606.00344#bib.bib5),22 (https://arxiv.org/html/2606.00344#bib.bib32),14 (https://arxiv.org/html/2606.00344#bib.bib20)]。此外,受大语言模型启发,文献[11 (https://arxiv.org/html/2606.00344#bib.bib14),25 (https://arxiv.org/html/2606.00344#bib.bib33)] 研究了类别数超出最后一隐藏层维度时的 NC 情况。

可以说,最常用的理论刻画 NC 的方法依赖于无约束特征模型(UFM)[16 (https://arxiv.org/html/2606.00344#bib.bib23)],或相关的图层剥离模型[4 (https://arxiv.org/html/2606.00344#bib.bib5)]。这些模型将训练问题表述为最后一隐藏层特征与最终线性分类器的联合优化,即最后一隐藏层特征不受前面层表达能力的限制。这些简化模型可以被视为(过参数化的)矩阵分解问题,已被用于证明全局最小值对于多种损失函数都满足 NC 性质[6 (https://arxiv.org/html/2606.00344#bib.bib8),3 (https://arxiv.org/html/2606.00344#bib.bib4),9 (https://arxiv.org/html/2606.00344#bib.bib11),4 (https://arxiv.org/html/2606.00344#bib.bib5),16 (https://arxiv.org/html/2606.00344#bib.bib23),28 (https://arxiv.org/html/2606.00344#bib.bib35),23 (https://arxiv.org/html/2606.00344#bib.bib30),15 (https://arxiv.org/html/2606.00344#bib.bib22)]。后续工作提供了全局景观分析,表明 UFM/图层剥离模型具有良性损失景观,因此只要训练算法能够避免在某些方向上具有严格负曲率的鞍点,它就会收敛到满足 NC 性质的点[29 (https://arxiv.org/html/2606.00344#bib.bib37),26 (https://arxiv.org/html/2606.00344#bib.bib34),27 (https://arxiv.org/html/2606.00344#bib.bib36)]。

本文我们关注均方误差(MSE)损失函数。近年来,这种损失函数在分类问题中越来越受到关注[2 (https://arxiv.org/html/2606.00344#bib.bib3),10 (https://arxiv.org/html/2606.00344#bib.bib12)]。在文献[23 (https://arxiv.org/html/2606.00344#bib.bib30)] 中,作者表明,对于采用独热编码的 MSE 损失,UFM 最优解的几何结构取决于最终分类器是否使用偏置项:当使用某种(未正则化的)偏置时,(非中心化的)均值激活组织成单纯形 ETF;而在没有偏置时,它们形成正交框架(OF)。在这项工作中,我们在这两种结构之间架起了一座桥梁,证明 OF 和单纯形 ETF 仅仅是彼此的平移版本,见图 1 (https://arxiv.org/html/2606.00344#S3.F1)。这两种结构之间的转换是由最终分类器的偏置引起的,该偏置旨在补偿标签可能的不中心化问题,并且其大小取决于正则化的强度。请注意,这些结构让人联想到独热编码标签的 OF 结构。我们进一步探索编码对 NC 的作用,并证明即使变异性坍缩不依赖于编码,其他 NC 性质并非如此。

本文结构如下。我们在第二节 (https://arxiv.org/html/2606.00344#S2) 回顾基本定义,在第三节 (https://arxiv.org/html/2606.00344#S3) 展示单纯形 ETF 与 OF 之间的等价性,并讨论一般编码下最终分类器偏置的作用,在第四节 (https://arxiv.org/html/2606.00344#S4) 讨论其他 NC 性质。

## II预备知识

考虑一组输入数据 x1,...,xN∈Rdx,待分类为 K 个类别。记 ȳk∈RK 为类别 k∈{1,...,K} 的标签,并定义 Ȳ:=[ȳ1⋯ȳK]∈RK×K。注意我们考虑编码的维度等于类别数 K,这包括独热编码和标签平滑等。令 yi∈{ȳ1,...,ȳK} 为输入 xi 对应的目标标签向量,并定义 Y:=[y1⋯yN]∈RK×N。为了记法方便,我们假设样本按类别排序:

Y=CL,其中 L:=[ȳ1⋯ȳK]∈RK×K,且 C:=[e11n1⊤⋯eK1nK⊤]∈RK×N 是一个类别指派矩阵,这里 ek 表示第 k 个标准基向量,nk 表示目标标签 ȳk 在数据集中出现的次数,而 1nk 表示长度为 nk 的全1向量。这种记法推广了文献[23 (https://arxiv.org/html/2606.00344#bib.bib30),24 (https://arxiv.org/html/2606.00344#bib.bib31)] 中常用于平衡类别的 Kronecker 积公式化表述。

NC 指同时发生的四个性质。

- • NC1(变异性坍缩):最后一隐藏层特征围绕其类别均值集中。
- • NC2(收敛到单纯形 ETF):类别均值,在减去全局均值中心化后,收敛到单纯形 ETF(见定义 II.1 (https://arxiv.org/html/2606.00344#S2.Thmdefinition1))。
- • NC3(收敛到自对偶性):最后一层的分类器权重重缩放到与类别均值相同(可能相差一个缩放因子)。
- • NC4(简化为最近类中心分类):线性分类器的决策规则简化为选择其均值与最后一隐藏层激活值最近的类别。

NC 与单纯形 ETF 的概念紧密相关[17 (https://arxiv.org/html/2606.00344#bib.bib24)]。

###### 定义 II.1(单纯形 ETF)。

单纯形等角紧框架[17 (https://arxiv.org/html/2606.00344#bib.bib24)] 是 Rd 中 K 个向量的集合(其中 d⩾K),由以下矩阵的列指定:

M=αP(IK−1K1K⊤K),

其中 P∈Rd×K 是半正交矩阵(即具有标准正交列),α>0。注意,等价地,M 满足:

M⊤M=α2(IK−1K1K⊤K)。

###### 定义 II.2(OF)。

所谓正交框架,我们指的是 Rd 中 K 个向量的集合(d⩾K),由以下矩阵的列指定:

M=αP,

其中 P∈Rd×K 是半正交矩阵,α>0。

在本文中,我们通过文献[16 (https://arxiv.org/html/2606.00344#bib.bib23)] 提出的无约束特征模型(UFM)来分析 NC,这里针对 MSE 损失表达式:

minW,H,b 1/2N ||WH+b1N⊤−Y||_F^2 + λW/2 ||W||_F^2 + λH/2 ||H||_F^2 + λb/2 ||b||_2^2, (2)

其中 H∈Rd×N,d⩾K,是无约束特征,这里模拟了最后一隐藏层的激活值,忽略了网络架构带来的表达能力限制;W∈RK×d 和 b∈RK 分别是最终分类器的权重和偏置;λW>0、λH>0、λb⩾0 是正则化参数。注意,分类器的线性假设是标准的[16 (https://arxiv.org/html/2606.00344#bib.bib23)]。

## III从OF到单纯形ETF:偏置的作用

### III-A 独热编码标签与均衡数据

这里我们处理 UFM 问题 (II (https://arxiv.org/html/2606.00344#S2.Ex4)),使用独热编码标签和均衡数据,与文献[23 (https://arxiv.org/html/2606.00344#bib.bib30),27 (https://arxiv.org/html/2606.00344#bib.bib36)] 一致。

###### 定理 III.1(文献[27 (https://arxiv.org/html/2606.00344#bib.bib36)] 定理 3.1,缩短版)。

假设标签为独热编码,即 Ȳ=IK,数据是均衡的,即 n1=⋯=nK=:n=N/K,并定义 c:=K√(n λW λH)。那么,若 c<1,则 (II (https://arxiv.org/html/2606.00344#S2.Ex4)) 的任意全局极小点 (W*,H*,b*) 满足 NC1 和 NC3:

H*=H̄*C 且 W*⊤=√(n λH / λW) H̄*, (3)

其中 H̄*∈Rd×K 满足:

H̄*⊤H̄* = { α1 (IK−1K1K⊤K) 若 λb ≤ c/(1−c), α2 (IK− (c/(λb(1−c))) (1K1K⊤/K) 否则, (4)

其中 α1>0 和 α2>0 依赖于 λW、λH 和 λb。此外,最优偏置 b* 满足:

b* = { (1/(1+λb)) (1K/K) 若 λb ≤ c/(1−c), (c/λb) (1K/K) 否则. (5)

定理 III.1 (https://arxiv.org/html/2606.00344#S3.Thmtheorem1) 揭示了随着 λb 减小,H̄* 的结构发生转变:从 OF(当 λb→∞)转变为单纯形 ETF(当 λb≤c/(1−c))。这一观察暗示了 OF 与单纯形 ETF 之间的关联。事实上,对任意正交框架 M=αP 进行中心化得到:

Mc = αP - (αP) (1K1K⊤/K),

根据定义 II.1 (https://arxiv.org/html/2606.00344#S2.Thmdefinition1),这是一个单纯形 ETF;参见图 1 (https://arxiv.org/html/2606.00344#S3.F1) 的图示。这促使我们提出以下定义。

参见图注
图 1:对 OF(蓝色)进行中心化总是得到一个单纯形 ETF(绿色)。在本图中,定义 II.1 (https://arxiv.org/html/2606.00344#S2.Thmdefinition1) 和 II.2 (https://arxiv.org/html/2606.00344#S2.Thmdefinition2) 中的参数选取为 d=K=3,P=IK,α=1。

###### 定义 III.1。

(平移单纯形 ETF)平移单纯形等角紧框架(SSETF)是 Rd 中 K 个向量的集合(d⩾K),由以下矩阵的列指定:

M=αP (IK−β (1K1K⊤/K)),

其中 P∈Rd×K 是半正交矩阵,α>0,β∈R。

这个提出的结构推广了 OF(β=0)和单纯形 ETF(β=1)。注意,对任意 SSETF 进行中心化都得到一个单纯形 ETF。

###### 命题 III.2。

若 M∈Rd×K 是一个 SSETF,则 Mc=M (IK−1K1K⊤/K) 是一个单纯形 ETF。

###### 证明。

由定义 III.1 (https://arxiv.org/html/2606.00344#S3.Thmdefinition1),M=αP (IK−β (1K1K⊤/K)) 对某 α,β∈R 成立。由定义,Mc=M (IK−1K1K⊤/K),对于任意 β,这简化为 Mc=αP (IK−1K1K⊤/K),即 Mc 是一个单纯形 ETF。∎

注意在 (5 (https://arxiv.org/html/2606.00344#S3.E5)) 中,最优偏置 b* 随 λb 减小如何演变:它从无偏置 UFM(λb→∞)下的 0K 连续过渡到无正则化偏置 UFM(λb=0)下的 (1/K) 1K,即标签的均值。换句话说,对于独热编码标签,无正则化偏置 UFM 中的偏置补偿了标签的非中心化。

### III-B 任意标签

这里我们将上一节的结果推广到任意标签编码 Ȳ∈

相似文章

深度隐含偏差:从神经坍缩到Softmax编码

arXiv cs.LG

本文研究深度本身如何在没有正则化训练的情况下,在深度无约束特征模型中引致隐式低秩偏差,将最优解从神经坍缩转向Softmax编码,并首次给出了在交叉熵损失下梯度下降中这一偏差的渐近和动态表征。

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。