秩不等于容量:潜在图模型的光谱占用分析
摘要
本文提出了一种名为 Spectra 的方法,利用光谱占用率来分析和控制潜在图模型的实际容量,并论证了模型的秩并不等同于其容量。
arXiv:2605.11142v1 公告类型:新论文
摘要:图表示学习已成为分析网络数据的标准方法,其潜在嵌入广泛应用于链接预测、社区检测及相关任务。然而,一个基本的设计选择——潜在维度——仍被视为脆弱的超参数,通常在训练前固定,并通过留出集的性能进行调整。由于学习到的因子仅在旋转和缩放范围内可识别,因此标称秩很少与决定模型行为的实际量保持一致。我们提出了光谱前缀提取与容量目标表示分析(Spectra),该方法以学习到的正定核函数的光谱作为分析单元,取代传统的秩,并通过迹归一化使不同拟合模型的光谱具有可比性。归一化后的特征值在单纯形上形成分布,其香农有效秩既可作为学习容量的摘要,也可作为训练期间的可控制坐标:通过一个标量即可在训练过程中塑造这一实际维度,并利用二分法在秩上限范围内实现任意目标值。为提供理论支持,我们证明了实际维度分布的局部正则性和单调性。在协作、社交、生物和基础设施网络中,Spectra 描绘了性能-容量前沿,使预测精度与实际维度之间的权衡变得可见。Spectra 与强大的链接预测基线方法相比表现具有竞争力,通过光谱前缀提供同一拟合模型的较低容量对齐视图,并在过参数化体制下为容量控制提供了理论依据。因此,容量成为拟合模型的属性,而非训练过程的超参数。
查看缓存全文
缓存时间: 2026/05/13 06:32
# 秩并非容量:潜在图模型的光谱占用
来源:https://arxiv.org/html/2605.11142
Nikolaos Nakis$^1$, Panagiotis Promponas$^{2,\*}$, Konstantinos Tsirkas$^3$, Katerina Mamali$^4$, Eftychia Makri$^2$, Leandros Tassiulas$^2$, Nicholas A. Christakis$^1$
$^1$ 耶鲁大学人类本性实验室
$^2$ 耶鲁大学电气与计算机工程系
$^3$ 耶鲁大学统计与数据科学系
$^4$ 耶鲁大学计算机科学系
康涅狄格州纽黑文, 06511
[email protected], [email protected]
###### 摘要
图表示学习已成为分析网络数据的标准方法,潜在嵌入被广泛用于链路预测、社区检测及相关任务。然而,一个基本的设计选择——潜在维度——仍被视为一个脆弱的超参数,在训练前固定并通过留出集性能进行调整。学习到的因子仅在旋转和重新缩放下是可识别的,因此名义上的秩很少与控制模型行为的实际数量相符。我们提出了**光谱前缀提取与容量目标表示分析(Spectra)**,用学习到的半正定核的光谱替换“秩”作为分析单位,并进行迹归一化,以便在不同拟合结果间比较光谱。归一化的特征值在单纯形上形成分布,其香农有效秩既作为已学习容量的摘要,也作为可控制的训练时坐标:单个标量在训练期间塑造这一实现维度,二分法可针对秩上限内的任何期望值。为了从理论上支持这一点,我们展示了已实现维度轮廓的局部正则性和单调性。在协作、社交、生物和基础设施网络上,Spectra描绘了性能-容量前沿,使预测精度与已实现维度之间的权衡变得可见。它在链路预测基线上表现具有竞争力,通过光谱前缀生成相同拟合模型的较低容量视图,并在过参数化 regimes 中对容量提供了原则性的控制手段。因此,容量成为拟合模型的属性,而非训练的超参数。
## 1 引言
图表示学习中的一个核心设计选择是潜在空间的维度。尽管这一数量对模型行为有重要影响,但它通常被视为一个固定的超参数,在训练前选定并通过留出性能进行调整。现代图表示方法,包括随机游走嵌入(Grover and Leskovec, 2016; Ahmed et al., 2018)、矩阵分解方法(Qiu et al., 2018; Cao et al., 2015)、混合成员模型(Airoldi et al., 2007; Wang et al., 2017)、潜在空间和内积模型(Hoff et al., 2002; Hoff, 2007; Athreya et al., 2018; Rubin-Delanchy et al., 2022; Sussman et al., 2013)以及单纯形体积扩展如 HM-LDM(Nakis et al., 2022, 2023a),都显式或隐式地依赖于这种选择。在这些方法家族中,一个基本问题依然存在:数据实际上需要多少个潜在维度?现有的选择程序,包括轮廓似然肘部法(Zhu and Ghodsi, 2006)、贝叶斯潜在维度选择(Passino and Heard, 2020)、网络交叉验证(Chen and Lei, 2018; Li et al., 2020)、结构准则(Gu et al., 2021)、输入图熵方法(Luo et al., 2021)以及诸如 NetFlipPA 的光谱平行分析(Hong and Cape, 2025),大多在拟合前后选择单个维度。它们并未暴露**表示容量**,即拟合模型有效使用多少个潜在模式,作为一个可以在模型本身中测量、控制或审计的数量。此外,学习到的潜在因子仅在旋转和全局重新缩放下是可识别的(Hoff et al., 2002; Airoldi et al., 2007; Athreya et al., 2018),且维度误设具有可测量的统计成本(Taing and Levin, 2026)。因此,操作量不仅是声明的秩,而是表示质量如何分布在潜在模式上。
我们提出**光谱前缀提取与容量目标表示分析(Spectra)**,用学习到的半正定(PSD)核的光谱替换“秩”作为分析单位。该核对因子分解的规范对称性不变,迹归一化固定了总光谱质量,归一化的特征值在潜在模式上形成概率分布,我们称之为**光谱占用分布**。我们通过其香农熵的指数——**有效光谱维度** $d_{\mathrm{spec}}$——来总结此分布(Roy and Vetterli, 2007; Friedman and Dieng, 2022)。光谱熵已被用作语言模型(Wei et al., 2024; Jha and Reagen, 2025)、训练动态(Yang et al., 2024)和自适应秩压缩(Cherukuri and Lala, 2025)中的诊断工具。在这里,它成为潜在图模型的可控端到端训练时容量坐标。这种定位连接了对过参数化模型的两种观点:即使参数数量很大,有效复杂性也可以控制泛化(Belkin et al., 2019; Bartlett et al., 2020),而因子分解矩阵模型上的梯度下降隐含地偏向低秩解(Gunasekara et al., 2017; Arora et al., 2019)。我们的方法使这种偏差显式化并参数化:熵权重 $\eta$ 塑造学习到的光谱,二分法针对期望的 $d_{\mathrm{spec}}$,秩上限成为参数化天花板。迹归一化将规模与秩分开,避免了核范数惩罚的规模耦合(Srebro et al., 2004),而光谱前缀提供了拟合核的最优低秩 PSD 摘要(Eckart and Young, 1936)。
我们的贡献包括:
(i) **作为已实现容量的光谱占用。** 我们用学习到的 PSD 核的迹归一化光谱替换名义秩,并使用其香农有效秩 $d_{\mathrm{spec}}$ 作为已实现潜在维度的平滑度量。
(ii) **训练时容量控制。** 我们引入了一个熵正则化目标函数,其中标量 $\eta$ 塑造已实现的光谱维度,并使用二分法以容差针对预设的 $d_{\mathrm{spec}}$。
(iii) **光谱可识别性与摘要。** 我们在框架内的简单光谱条件下验证了活跃光谱模式的可识别性,建立了正则条件下已实现维度轮廓的局部 $\mathcal{C}^1$ 行为,并利用光谱前缀作为低秩 PSD 摘要的最优性。
(iv) **经验容量前沿。** 在八个基准网络和三个秩上限中,AUC 在重叠的秩上限处按实现的 $d_{\mathrm{spec}}$ 对齐。产生的前沿区分了饱和数据集(其最佳工作点低于上限)和秩上限绑定数据集(其最佳工作点随 $r$ 增加)。
(v) **单次拟合前缀家族。** 拟合的核产生嵌套的对齐光谱前缀家族,无需重新训练即可提供相同表示的较低容量视图。
(vi) **光谱控制的过参数化。** 在匹配的有效容量下,$\eta$-目标过参数化拟合在配对实验中提高了测试对数似然并缩小了训练-测试差距,优于仅基于秩上限的基线。
## 2 相关工作
潜在距离和内积模型(Hoff et al., 2002; Hoff, 2007)以及随机点积图(RDPG)框架(Athreya et al., 2018; Sussman et al., 2013)将潜在位置或邻接矩阵的光谱视为规范推断对象,通常带有 consistency 保证,但不提供显式的训练时容量控制。基于梯度的 RDPG 推断(Fiori et al., 2023)同样从优化器推断已实现秩而非控制它,而单纯形约束和潜在距离扩展(Nakis et al., 2022, 2023b)增加了几何可解释性但保留了固定的名义维度。Spectra 工作于此脉络中,但使用显式核参数化将容量暴露为连续的训练时坐标。
轮廓似然肘部法则(Zhu and Ghodsi, 2006)、贝叶斯潜在维度选择(Passino and Heard, 2020)、网络交叉验证(Chen and Lei, 2018; Li et al., 2020)、结构信息准则(Gu et al., 2021; Luo et al., 2021)、光谱平行分析(Hong and Cape, 2025)以及度量潜在距离模型下的对数搜索(Nakis et al., 2025)在一次性过程中从光谱、后验或留出诊断中选择维度。操作坐标在训练前后固定。相反,Spectra 在训练期间塑造已实现容量,并在学到的核光谱上对其进行测量。
因子分解 PSD 模型表现出梯度下降偏向低秩(Gunasekara et al., 2017; Arora et al., 2019),这属于有效复杂性控制过参数化泛化的更广泛文献(Belkin et al., 2019; Bartlett et al., 2020)。核范数松弛(Candes and Recht, 2012; Recht et al., 2010; Srebro et al., 2004)提供了显式但规模耦合的正则化,而稳定秩归一化(Sanyal et al., 2020)控制了 Frobenius 到光谱的比率。通过迹归一化学习到的 PSD 核,Spectra 将规模与秩分开,在归一化特征值的单纯形上暴露容量,并产生 Eckart-Young-Mirsky 最优的低秩 PSD 摘要(Eckart and Young, 1936)。
香农有效秩曾作为信号处理中的光谱熵度量出现(Roy and Vetterli, 2007),并作为多样性度量的 Vendi 分数(Friedman and Dieng, 2022);光谱熵也诊断语言模型中的容量(Wei et al., 2024; Jha and Reagen, 2025),表征神经网络训练动态(Yang et al., 2024),并指导自适应秩压缩(Cherukuri and Lala, 2025)。相关替代方案包括参与比、内在维度(Li et al., 2018)、稳定秩(Ipsen and Saibaba, 2025)以及行列式点过程中的熵泛函(Kulesza and Taskar, 2012)。在这些设置中,光谱通常事后读取;Spectra 将香农有效秩用作可控的训练时坐标。
## 3 所提方法
参见图注
**图 1:Spectra 概览。** 一个秩上限因子 $L$ 诱导了一个迹归一化的 PSD 核 $K(L)$,用于边模型。$K(L)$ 的归一化光谱定义了光谱占用。
**预备知识。** 设 $\mathcal{G}=(V,E)$ 为具有 $N=|V|$ 个节点和邻接矩阵 $\mathbf{Y}\in\{0,1\}^{N\times N}$ 的简单无向图,其中 $\mathbf{Y}_{ij}=\mathbf{Y}_{ji}$ 且 $\mathbf{Y}_{ii}=0$。我们的目标是学习一个潜在图表示,其已实现维度可从拟合模型中测量,而不是由选定的分解秩预先固定。我们用半正定(PSD)核 $K\in\mathbb{R}^{N\times N}$ 表示节点间的潜在亲和力。为了在不同运行、秩上限和正则化强度之间比较学习核的光谱,我们固定总光谱质量:
$$ K\succeq 0, \qquad \operatorname{tr}(K)=N. \tag{1} $$
此迹归一化消除了核的任意全局重新缩放,并将所有学习到的光谱置于同一尺度。因此,$K$ 的特征值分布的差异反映了表示如何将其固定的光谱预算分配到潜在模式上,而不是整体幅度的差异。
我们将核参数化为秩上限因子 $L\in\mathbb{R}^{N\times r}$:
$$ K(L) = N \frac{LL^\top}{\operatorname{tr}(LL^\top)}, \qquad L\neq 0. \tag{2} $$
整数 $r$ 因此是一个参数化天花板:它限制了优化器可用的最大秩,但并不定义学习到的表示实际使用的维度。已实现维度将从 $K(L)$ 的归一化光谱中测量。
**光谱前缀提取与容量目标表示分析(Spectra)。** 给定迹归一化核 $K(L)$、节点特定偏移 $a\in\mathbb{R}^N$ 和斜率参数 $\beta>0$,我们将每条无向边建模为
$$ P(Y_{ij}=1\mid L,a,\beta) = \varphi(a_i + a_j + \beta K_{ij}(L)), \quad i<j, $$
其中 $\varphi(z) = \frac{1}{1+e^{-z}}$ 为 sigmoid 函数。
**光谱占用分布。** 令 $p(K) \in \Delta^{N-1}$ 为 $K$ 的归一化特征值向量。我们定义**光谱占用**为 $p(K)$ 上的概率质量分布。其香农熵为
$$ H(p(K)) = -\sum_{i:p_i(K)>0} p_i(K) \log p_i(K). \tag{3} $$
**有效光谱维度** $d_{\mathrm{spec}}$ 定义为香农熵的指数:
$$ d_{\mathrm{spec}}(K) := \exp\!\left(-\sum_{i:p_i(K)>0} p_i(K) \log p_i(K)\right). \tag{5} $$
等价地,$d_{\mathrm{spec}}(K) = \exp(H(p(K)))$...相似文章
LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]
作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。
GRPO 下基于梯度的 LoRA 秩分配:一项实证研究
本研究通过实证表明,在监督微调中有效的基于梯度的 LoRA 秩分配,在基于 GRPO 的强化学习中会导致性能下降,原因在于梯度景观更为平缓以及存在梯度放大效应。
我发现Transformer中一个预测几何稳定性的隐藏比率 [R]
本文通过Lyapunov谱分析发现,MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性,最优范围在0.5–2之间,可防止秩坍缩。
超越因子聚合:面向联邦 LoRA 的规范感知低秩服务器表示
本文介绍了 GLoRA,这是一种面向联邦 LoRA 的规范感知服务器表示,旨在通过估计共识更新子空间来解决因子聚合中的语义不匹配问题。实验表明,在异构客户端场景下,GLoRA 在性能和效率方面均优于基线方法。
特征排斥与谱锁定:两层网络 Grokking 现象的实证研究
这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现,展示了激活函数如何影响从记忆到泛化的过渡。