设计驱动的Neural Collapse: 超球面上的类别原型学习
摘要
本文表明,交叉熵和监督对比学习都是超球面上的原型学习形式,并提出了归一化损失函数(NTCE和NONL),这些损失函数通过设计实现Neural Collapse,性能优于标准方法。
arXiv:2605.20302v1 公告类型:新
摘要:监督分类具有理论最优解,即神经坍缩(Neural Collapse, NC),但其两种主导范式在实践中均未达到该最优。交叉熵(CE)未约束径向自由度,收敛到退化几何结构;而监督对比学习(SCL)在预训练阶段推动特征趋向NC,但在随后的线性探测阶段丢弃了这一结构。我们表明,这两种范式实际上是同一方法的不同表现形式——单位超球面上的原型对比,并指出弥补差距需要分别解决各自的失败点。在CE方面,我们提出NTCE和NONL,两种归一化损失函数,将对比优化中缺失的成分引入分类器学习:一个大规模有效负样本集以及解耦的对齐与均匀性项。在SCL方面,我们证明SCL的目标函数在整个训练过程中已经优化了一个有原则的分类器,其权重即为类别均值嵌入,这使得线性探测既冗余又有害。在包括ImageNet-1K在内的四个基准测试上,NTCE和NONL在准确率上超越了CE,紧密逼近了NC ($\geq 95\%$),并在不到CE $7.5\%$的迭代次数内匹配了CE在4/5指标上收敛后的NC;同时,使用固定原型的SCL无需数小时的分类器训练阶段即可匹敌线性探测。学习到的几何结构在迁移学习中获得了平均 $+5.5\%$ 的相对提升,在严重类别不平衡下提升高达 $+8.7\%$,并在ImageNet-C上降低了mCE,从而将监督学习重新定义为超球面上的原型学习,两条路径均通过设计达到NC。
查看缓存全文
缓存时间: 2026/05/21 06:22
# 设计实现神经崩溃:超球面上的类原型学习
来源:https://arxiv.org/html/2605.20302
###### 摘要
监督分类存在理论最优解——神经崩溃(Neural Collapse, NC),然而实践中两种主流范式均未达到该最优。交叉熵(CE)未约束径向自由度,收敛至退化几何结构;监督对比学习(SCL)在预训练中将特征推向NC,却在后续的线性探针阶段丢弃了这一结构。我们证明两种范式本质上是同一种方法——单位超球面上的原型对比,而弥补差距需要分别在各自的失效点上加以修正。在CE一侧,我们提出NTCE和NONL两种归一化损失函数,将对比优化的缺失要素引入分类器学习:大有效负样本集、以及解耦的对齐与均匀性项。在SCL一侧,我们证明SCL的目标函数在整个训练过程中已经为一种以类均值嵌入为权重的原则性分类器进行优化,因此线性探针既冗余又有害。在包括ImageNet-1K的四个基准测试上,NTCE和NONL超过CE的准确率,高度逼近NC(≥95%),在不到CE 7.5%迭代次数时即在4/5项指标上达到CE收敛时的NC水平;而使用固定原型的SCL无需耗时数小时的分类器训练阶段即可匹配线性探针。学得的几何结构在迁移学习中带来+5.5%的平均相对提升,在严重类别不平衡下可达+8.7%,并在ImageNet-C上取得更低的mCE,将监督学习重新定义为超球面上的原型学习,两条路径均“通过设计”达到NC。
代码:https://github.com/pakoromilas/nc_by_design
机器学习,ICML,表示学习,神经崩溃,监督对比学习,监督学习
---
图1:监督学习即超球面上的类原型学习。
(a) 未约束特征z、权重W和偏置b的交叉熵,保留径向自由度,阻止收敛至NC。
(b) SCL预训练通过投影头将特征映射到S^{d-1},产生趋近于类内坍缩(NC1)和最大类间分离(NC2)的表示。
(c) 标准做法丢弃投影头,在未约束的z上训练线性探针,重新引入自由的‖w‖和b,破坏了预训练中学到的NC几何。
(d) 我们证明两种范式都在超球面上学习类原型,收敛到相同的单纯形ETF。从分类器学习(CL)角度:归一化至S^{d-1}并应用对比优化(NTCE/NONL)得到可学习的原型ŵ_c,收敛至类均值(定理4.1)。从SCL角度:类均值原型μ̂_c在整个训练过程中已是最优分类器,线性探针非必要(定理4.2)。两条路径在理论上实现NC1–NC4,实践中高度近似,在全局最优处有ŵ_c = μ̂_c。
## 1 引言
尽管理论证明神经崩溃(NC)是监督学习目标的全局最优解(Lu和Steinerberger,2022(https://arxiv.org/html/2605.20302#bib.bib24);Zhou等人,2022a(https://arxiv.org/html/2605.20302#bib.bib29);Graf等人,2021(https://arxiv.org/html/2605.20302#bib.bib42)),标准监督流程在实践中很少达到NC。这种失败尤其引人注目,因为NC恰好提供了我们期望的性质:当神经网络确实接近这种几何配置——类内表示坍缩至其均值、类均值形成等角紧框架(ETF)、分类器权重与这些原型对齐——时,它们表现出更好的泛化能力(Papyan等人,2020(https://arxiv.org/html/2605.20302#bib.bib15);Bartlett等人,2017(https://arxiv.org/html/2605.20302#bib.bib17);Neyshabur等人,2018(https://arxiv.org/html/2605.20302#bib.bib18))、对抗鲁棒性(Fawzi等人,2016(https://arxiv.org/html/2605.20302#bib.bib21);Ding等人,2020(https://arxiv.org/html/2605.20302#bib.bib22))、增强的迁移学习(Galanti等人,2021(https://arxiv.org/html/2605.20302#bib.bib2);Khosla等人,2020(https://arxiv.org/html/2605.20302#bib.bib20)),并收敛至最大间隔分类器(Soudry等人,2018(https://arxiv.org/html/2605.20302#bib.bib16)),具有更强的鲁棒性保证(Hein和Andriushchenko,2017(https://arxiv.org/html/2605.20302#bib.bib10))。
既然NC被证明为最优且经验上有益,为何标准监督流程始终无法达到?我们认为核心问题在于未约束的径向自由度。交叉熵(CE)优化允许特征和权重共同缩放而不改变预测(Soudry等人,2018(https://arxiv.org/html/2605.20302#bib.bib16)),使得径向方向不受约束,阻止收敛至唯一几何结构。尽管对特征、权重和偏置施加显式正则化可能解决此问题(Zhu等人,2021(https://arxiv.org/html/2605.20302#bib.bib30)),但它引入了多个超参数,使实际应用复杂化。一个原则性的解决方案是完全消除径向自由度,将优化约束在单位超球面上,此时NC成为唯一的全局最优(Yaras等人,2022(https://arxiv.org/html/2605.20302#bib.bib23))。这正是归一化softmax损失(如NormFace(Wang等人,2017(https://arxiv.org/html/2605.20302#bib.bib33)))所做的:通过归一化特征和分类器权重,将分类投影到超球面,并将其重新表述为数据表示与可学习类原型之间的角度相似性。
然而CE并非唯一未能达到NC的监督范式。监督对比学习(SCL)(Khosla等人,2020(https://arxiv.org/html/2605.20302#bib.bib20))确实在预训练中将特征推向NC几何:通过投影头将其映射到单位超球面,产生类内坍缩和ETF对齐的类均值(Graf等人,2021(https://arxiv.org/html/2605.20302#bib.bib42))。然而标准流程随后丢弃投影头,转向不同的表示空间,在未归一化的编码器表示上训练带有自由权重和偏置的线性分类器,重新引入了最初导致CE失效的径向和偏置病理。因此两种范式因相反原因而失败:CE从未构建该几何,而SCL在预训练中近似了它,却在线性探针阶段丢弃了它。
这些互补的诊断汇聚到单一概念视角:单位超球面上的原型对比(图1(https://arxiv.org/html/2605.20302#S0.F1))。一旦分类器学习(CL)采用归一化softmax,它就优化归一化特征与作为原型的显式类权重向量之间的角度相似性。我们证明,另一方面,SCL利用隐式的类均值嵌入作为原型,优化归一化实例之间的角度相似性。因此CL和SCL是同一方法的不同呈现,区别仅在于原型是参数化的还是涌现的,两者都能达到相同的单纯形ETF。尽管有这一共同的几何基础,归一化softmax将CE重新表述为对比形式,但尚未带来相应的优化:它仅与K个类原型进行对比(He等人,2020(https://arxiv.org/html/2605.20302#bib.bib49)),有效负样本集较小,并通过共享归一化耦合了正负相似性项(Yeh等人,2022(https://arxiv.org/html/2605.20302#bib.bib51))。
我们通过应用恰当的对比优化来弥合与NC的剩余差距,并做出以下五项贡献:
C1. 我们将归一化softmax和SCL统一在单一几何框架下,揭示两者都是单位超球面上的原型对比方法,区别仅在于原型是显式的(学习到的权重)还是隐式的(类均值)。该框架解释了为何两者在实践中都能达到NC而标准CE不能。
C2. 我们提出两种监督目标函数,克服了现有的计算局限。NTCE(归一化温度缩放交叉熵)将有效负样本数从K个类增加到M个批量样本,增强了类间分离。NONL(仅负样本归一化损失)仅对负样本进行归一化,消除了类内对齐与类间排斥之间的干扰,加速了NC收敛。
C3. 我们证明SCL目标在整个预训练过程中已经优化了一个最优的原型分类器,消除了线性探针的必要性。SCL学到的类均值嵌入形成了原则性的SCL分类器,无论NC是否达到。
C4. 我们在包括ImageNet-1K的四个基准测试上验证了我们的方法。NTCE和NONL在NC指标上达到≥95%,同时超过标准CE的准确率,并以远少于CE的训练迭代次数匹配CE的NC指标。我们的原型分类器保持了SCL的准确率,同时消除数小时的线性探针计算,这对大规模部署是显著的实际节省。
C5. 我们实验证明,我们的目标函数学到的表示转化为实际收益:在迁移学习上提升性能(+5.5%平均相对提升)、长尾分类(高达+8.7%相对提升)和鲁棒性(更低的mCE)。这些结果表明监督学习应被根本性地重新理解:不是欧氏空间中的未约束优化,而是超球面上基于原型的分类。
## 2 相关工作
神经崩溃。神经崩溃(NC)描述了一种极限几何:类内特征坍缩至其均值(NC1),类均值形成居中的单纯形ETF(NC2),分类器权重与均值对齐(NC3),偏置坍缩(NC4)(Papyan等人,2020(https://arxiv.org/html/2605.20302#bib.bib15))。对于包括MSE(Han等人,2022(https://arxiv.org/html/2605.20302#bib.bib37);Zhou等人,2022a(https://arxiv.org/html/2605.20302#bib.bib29))、交叉熵(CE)(Lu和Steinerberger,2022(https://arxiv.org/html/2605.20302#bib.bib24))、监督对比学习(SCL)(Graf等人,2021(https://arxiv.org/html/2605.20302#bib.bib42))以及CE变体(如标签平滑和焦点损失)(Zhou等人,2022b(https://arxiv.org/html/2605.20302#bib.bib1))等若干目标和建模假设,该结构刻画了全局最小化器。然而在有限训练中,标准带权值衰减的CE通常无法实现最优几何:损失是“尺度非强制”的,可以通过膨胀logit幅度而无需改善角度结构来趋近零(Albert和Anderson,1984(https://arxiv.org/html/2605.20302#bib.bib31);Soudry等人,2018(https://arxiv.org/html/2605.20302#bib.bib16))。类别不平衡进一步扭曲ETF并减慢收敛(Thrampoulidis等人,2022(https://arxiv.org/html/2605.20302#bib.bib28);Hong和Ling,2024(https://arxiv.org/html/2605.20302#bib.bib53));自由的偏置项阻碍NC4,并可能加剧校准误差,除非加以控制(例如logit调整)(Menon等人,2021(https://arxiv.org/html/2605.20302#bib.bib46))。同时惩罚特征、权重和偏置原则上可以恢复强制力并在理论上产生NC(Zhu等人,2021(https://arxiv.org/html/2605.20302#bib.bib30);Zhou等人,2022a(https://arxiv.org/html/2605.20302#bib.bib29)),但调节多个正则化器是脆弱的。*我们证明,在超球面上将实例与类原型进行对比,使NC在实践中得以实现。*
超球面上的学习。约束径向自由是通向NC的原则性路径。当特征和分类器都位于单位超球面上时,球积上的CE表现出良性的严格鞍点景观,其最小值实现完美的NC(Yaras等人,2022(https://arxiv.org/html/2605.20302#bib.bib23))。相关证据出现在对比目标中:SCL产生类内坍缩和单纯形类均值(Graf等人,2021(https://arxiv.org/html/2605.20302#bib.bib42)),而在自监督对比学习中,批量级最优解形成单纯形ETF(Koromilas等人,2024(https://arxiv.org/html/2605.20302#bib.bib50))。人脸识别领域的一系列工作,包括SphereFace、CosFace、ArcFace和NormFace(Liu等人,2017(https://arxiv.org/html/2605.20302#bib.bib34);Wang等人,2018(https://arxiv.org/html/2605.20302#bib.bib35);Deng等人,2019(https://arxiv.org/html/2605.20302#bib.bib36);Wang等人,2017(https://arxiv.org/html/2605.20302#bib.bib33)),通过使用角度/余弦间隔实现了仅方向判别。*我们通过证明归一化softmax和SCL都在超球面上进行原型对比,将这些方法统一起来。* 在此桥梁基础上,我们以NTCE/NONL扩展归一化softmax,引入理想性质。
基于原型的分类与ETF分类器。原型方法通过到学习到的代表点的距离进行分类(Snell等人,2017(https://arxiv.org/html/2605.20302#bib.bib47))。受NC启发,若干工作固定或引导分类器朝向类似ETF的原型,仅学习编码器,例如(i)固定一个单纯形ETF头部并训练主干(ETF+DR)(Yang等人,2022(https://arxiv.org/html/2605.20302#bib.bib3)),(ii)使用超球面原型网络(Mettes等人,2019(https://arxiv.org/html/2605.20302#bib.bib4)),或(iii)构造等角基向量(EBV)(Shen等人,2023(https://arxiv.org/html/2605.20302#bib.bib5))。其他方法强制(非负)正交性(Kim和Kim,2024(https://arxiv.org/html/2605.20302#bib.bib14))或通过黎曼内部优化引导分类器趋近最近ETF(Markou等人,2024(https://arxiv.org/html/2605.20302#bib.bib48))。最近NC结构被用于师生设定(Zhang等人,2025(https://arxiv.org/html/2605.20302#bib.bib7)):给定一个已经展现NC的训练好的教师,他们计算教师的类质心,并将其用作学生的NC3启发式分类器。*我们的观点是,CL和SCL已经在使用原型进行操作:我们修改目标函数以在实践中实现NC,并且我们证明SCL的类均值原型形成了一个有效的分类器,使得线性探针不必要。*
## 3 预备知识
符号。标量用小写字母u表示,向量用小写粗体u表示,矩阵用大写粗体U表示。集合用大写花体U表示。使用下标访问单个元素:ui表示向量u的第i个元素,U_i,j表示矩阵U第i行第j列的元素。为表示矩阵X和Y的垂直(行向)拼接,我们使用[X; Y]。我们用û_j = u_j/‖u_j‖表示归一化向量。
### 3.1 学习范式
使用交叉熵的分类器学习。交叉熵损失是标准的分类器学习(CL)目标,优化表示和分类器权重相似文章
类别编码在神经坍缩中的作用
本文研究了类别标签编码如何影响神经网络分类器中的神经坍缩,表明在独热编码和平衡数据下,随着偏置正则化增加,未中心化的均值特征从单纯形等角紧框架转变为正交框架。
通道级语义扰动:面向多样训练范式的不可学习示例
本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。
大语言模型顺序后训练中的表征坍塌
本文研究了大型语言模型在顺序后训练中的表征坍塌现象,表明重复的适应阶段会压缩内部表征,降低可塑性和域外泛化能力。作者提出了轻量级干预措施,在不牺牲行为增益的前提下保留未来的可学习性。
从上下文偏移到风格崩塌:为什么训练目标比规模更重要
本文研究训练对齐目标如何重塑大型语言模型的语言特征,发现指令微调系统坍塌语言熵的程度显著超过规模预期,并且熵正则化可以缓解这种坍塌。
分叉附近的状态空间NTK坍缩
本文发展了动力模型分叉附近梯度下降的局部理论,表明状态空间神经正切核坍缩为秩一算子,主导学习动力学,使优化有效低维且可从规范形式预测。