通过残差正交化降低Boosting中的学习器冗余

arXiv cs.LG 论文

摘要

本文提出SCBoost,一种通过将残差投影到先前预测的正交补上并使用协方差正则化加权来降低学习器冗余的Boosting框架,具有理论保证和强大的实证性能。

arXiv:2606.17567v1 Announce Type: new Abstract: 虽然顺序残差拟合是标准Boosting框架的基石,但它会反复处理相关的误差分量,从而内生地产生学习器冗余。为了解决这一瓶颈,我们提出从残差拟合转向\textit{残差正交化},并引入SCBoost。我们的框架通过两种互补机制处理冗余:谱残差投影(SRP)和协方差正则化加权(CRW)。在训练过程中,SRP将每个残差目标投影到历史预测子空间的正交补上,迫使后续学习器仅捕捉新的经验创新。在聚合过程中,CRW在验证集上通过显式的协方差惩罚优化集成权重,以减轻剩余相关性。理论上,我们提供了一个有限样本的几何特征描述,证明SRP可得到精确的加性残差能量分解。此外,在各向同性噪声假设下,我们严格建立了该投影改善有效信噪比的条件。在十个基准数据集上的大量实验表明,SCBoost具有出色的开箱即用性能,尤其在准确率和F1分数方面。这项工作通过几何视角重新诠释了Boosting,表明显式冗余控制是迈向更高效集成架构的一个有原则且必要的步骤。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:41

# 通过残差正交化减少提升中的学习器冗余 来源:https://arxiv.org/html/2606.17567 苏野 郭继鹏 北京化工大学信息科学与技术学院,北京 100029,中国 刘勇 中国人民大学高瓴人工智能学院,北京 100872,中国 通讯作者。邮箱:[email protected], [email protected], [email protected] 徐鑫 华中师范大学计算机学院,湖北 430000,中国 张刚春 中国科学院深圳先进技术研究院,深圳 518055,中国 陈金鑫 中国科学院深圳先进技术研究院,深圳 518055,中国 Di Wu 拉筹伯大学计算、工程与数学科学学院,墨尔本 VIC 3086,澳大利亚 通讯作者。邮箱:[email protected], [email protected], [email protected] 赵龙龙 中国科学院深圳先进技术研究院,深圳 518055,中国 通讯作者。邮箱:[email protected], [email protected], [email protected]

###### 摘要

虽然顺序残差拟合是标准提升框架的基础,但它通过反复访问相关误差分量,内在滋生了学习器冗余。为了解决这一瓶颈,我们提出从残差拟合转向残差正交化,并引入SCBoost。我们的框架通过两种互补机制处理冗余:谱残差投影(Spectral Residual Projection, SRP)和协方差正则加权(Covariance-Regularized Weighting, CRW)。在训练过程中,SRP将每个残差目标投影到历史预测子空间的正交补上,迫使后续学习器仅捕获新颖的经验创新。在聚合阶段,CRW在验证集上优化集成权重,并加入显式的协方差惩罚以减轻剩余相关性。理论上,我们提供了一个有限样本的几何刻画,证明SRP能够实现准确的加性残差能量分解。此外,在各向同性噪声假设下,我们严格建立了该投影改善有效信噪比的条件。在十个基准数据集上的大量实验表明,SCBoost提供了强大的开箱即用性能,特别是在准确率和F1分数方面。本工作通过几何视角重新诠释了提升,表明显式冗余控制是迈向更高效集成架构的一个原则性且必要的步骤。

完整函数空间 h(1) h^{(1)} h(2) h^{(2)} h(3) h^{(3)} h(4) h^{(4)} 冗余梯度分量 最优 F* F^{*} (a) 标准残差拟合

h(1) h^{(1)} H_{t-1} \mathcal{H}_{t-1} h(2) ⟂ h(1) h^{(2)}\perp h^{(1)} h(3) h^{(3)} 纯化目标 (正交创新) 最优 F* F^{*} (b) SCBoost (本文方法)

图1:提升范式的概念示意图。(a) 标准提升在原函数空间中进行贪心下降,导致冗余更新和“锯齿形”行为。(b) SCBoost在训练前将每个残差投影到历史子空间 H_{t-1}\mathcal{H}_{t-1} 的正交补上,确保每个新学习器捕获几何上不同的信息,并加速向最优集成 F*F^{*} 的收敛。

## 1 引言

现代提升框架如XGBoost和LightGBM[9 (https://arxiv.org/html/2606.17567#bib.bib1),19 (https://arxiv.org/html/2606.17567#bib.bib2)]的成功主要归功于效率和特征处理方面的工程优化。然而,它们的统计核心——顺序残差拟合——几十年来基本保持不变[26 (https://arxiv.org/html/2606.17567#bib.bib3),5 (https://arxiv.org/html/2606.17567#bib.bib4),24 (https://arxiv.org/html/2606.17567#bib.bib5)]。这种范式内在滋生了冗余,因为新学习器是在高度相关的残差上训练的,从而形成了限制集成泛化能力的“冗余瓶颈”。突破这一上限需要直接解决这一统计局限,即使这意味着需要重新思考过去十年发展中所定义的计算权衡。

虽然先前的工作试图通过负相关学习(NCL)[23 (https://arxiv.org/html/2606.17567#bib.bib6),22 (https://arxiv.org/html/2606.17567#bib.bib7),30 (https://arxiv.org/html/2606.17567#bib.bib8)]或随机化[11 (https://arxiv.org/html/2606.17567#bib.bib9),20 (https://arxiv.org/html/2606.17567#bib.bib10),31 (https://arxiv.org/html/2606.17567#bib.bib11)]等方法来促进多样性,但它们通常将多样性视为次要目标,施加软惩罚从而与拟合精度形成不稳定的权衡。更重要的是,它们未能从根本上解决提升中问题的根源——残差目标本身的相关性[2 (https://arxiv.org/html/2606.17567#bib.bib12)]。

为了打破冗余瓶颈,我们提出从残差拟合转向残差正交化。如图1所示,该机制迫使每个新学习器仅逼近与现有集成几何上不同的误差分量。通过将学习目标投影到历史预测器的函数零空间上,我们消除了信号冗余并促进了新信息的提取。本研究的主要贡献是将残差正交化作为一种基本范式转变引入提升。我们超越了传统的拟合-添加逻辑,建立了一个新的实现——SCBoost,其贡献结构如下:

- •**核心原则**。我们引入**谱残差投影(SRP)**,在拟合每个新学习器之前修改残差目标。通过对预测历史进行谱分解,SRP将残差投影到选定历史预测子空间的正交补上。
- •**几何刻画**。我们证明SRP在训练样本上是一种精确的经验正交投影。这将残差能量分解为一个历史分量和一个正交创新分量的加性分解。
- •**噪声解释**。在显式固定子空间各向同性噪声假设下,我们刻画了投影如何改变噪声能量和有效信噪比。分析表明,只有当去除的信号分数小于去除的噪声分数时,SNR才会改善。
- •**聚合策略**。我们引入**协方差正则加权(CRW)**来聚合学习到的预测器。CRW使用验证集协方差正则化来减少高度相关学习器的影响,其动机源于平方损失下的歧义分解。

## 2 SCBoost

标准提升顺序拟合残差,但并未显式控制新学习器与现有集成之间的相关性,这可能导致冗余更新(图1(a))。我们提出SCBoost,一个基于残差正交化的提升框架。谱残差投影(SRP)不是直接拟合原始残差,而是将残差目标投影到历史预测子空间的正交补上(图1(b))。为了聚合学习到的预测器,协方差正则加权(CRW)随后分配集成权重并加入额外的协方差惩罚。SRP控制用于学习器归纳的目标,而CRW控制最终的聚合。

### 2.1 谱残差投影

**算法描述**。设第 \(t\) 次迭代的残差向量为 \(\mathbf{r}^{(t)} = \mathbf{y} - \sigma(\mathbf{F}^{(t-1)})\),其中 \(\mathbf{F}^{(t-1)}\) 是训练数据上的当前 logit 输出,\(\sigma(\cdot)\) 是 sigmoid 函数。我们维护一个预测历史矩阵 \(\mathbf{H}^{(t-1)} = [\mathbf{h}^{(1)}, \mathbf{h}^{(2)}, \ldots, \mathbf{h}^{(t-1)}] \in \mathbb{R}^{n \times (t-1)}\),其中 \(\mathbf{h}^{(j)}\) 表示第 \(j\) 个基学习器在训练数据上的预测向量。在第 \(t\) 步,我们计算奇异值分解 \(\mathbf{H}^{(t-1)} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\top\)。设 \(\mathbf{U}_k = [\mathbf{u}_{*1}, \ldots, \mathbf{u}_{*k}] \in \mathbb{R}^{n \times k}\) 是由能量阈值 \(\alpha \in (0,1)\) 选出的前 \(k\) 个左奇异向量:
\[
\frac{\sum_{i=1}^{k} \sigma_i^2}{\sum_{j=1}^{\min(n,t-1)} \sigma_j^2} \ge \alpha.
\]
我们定义投影算子 \(\mathbf{P}_k = \mathbf{U}_k \mathbf{U}_k^\top\),\(\mathbf{Q}_k = \mathbf{I}_n - \mathbf{P}_k\)。投影后的残差目标为 \(\tilde{\mathbf{r}}^{(t)} = \mathbf{Q}_k \mathbf{r}^{(t)} = \mathbf{r}^{(t)} - \mathbf{U}_k (\mathbf{U}_k^\top \mathbf{r}^{(t)})\)。下一个学习器将训练拟合 \(\tilde{\mathbf{r}}^{(t)}\) 而非原始残差 \(\mathbf{r}^{(t)}\)。该投影保证了训练目标与选定历史预测子空间的正交性。它本身并不保证拟合出的学习器 \(\mathbf{h}^{(t)}\) 与之前的学习器完全正交,因为拟合的学习器还取决于基学习器的逼近能力和优化过程。

**理论分析**。我们首先记录 SRP 的确定性几何性质。该结果是有限样本的,不需要分布假设。

###### 命题 2.1(经验正交投影。详细证明见附录A (https://arxiv.org/html/2606.17567#A1))。设 \(\mathcal{H}_{t-1} = \operatorname{span}(\mathbf{U}_k)\),其中 \(\mathbf{U}_k\) 具有标准正交列。设 \(\mathbf{P}_k = \mathbf{U}_k \mathbf{U}_k^\top\) 且 \(\mathbf{Q}_k = \mathbf{I}_n - \mathbf{P}_k\)。对于任意残差向量 \(\mathbf{r}^{(t)} \in \mathbb{R}^n\),SRP 目标 \(\tilde{\mathbf{r}}^{(t)} = \mathbf{Q}_{*k} \mathbf{r}^{(t)}\) 满足
\[
\tilde{\mathbf{r}}^{(t)} = \mathop{\arg\min}_{*\mathbf{z} \in \mathbb{R}^n} \quad \|\mathbf{z} - \mathbf{r}^{(t)}\|_{*2}^{2} \text{ s.t. } \quad \langle \mathbf{z}, \mathbf{u} \rangle = 0, \quad \forall \mathbf{u} \in \mathcal{H}_{*t-1}.
\]
此外,
\[
\|\mathbf{r}^{(t)}\|_2^2 = \|\mathbf{P}_k \mathbf{r}^{(t)}\|_2^2 + \|\mathbf{Q}_k \mathbf{r}^{(t)}\|_2^2.
\]
等价地,
\[
\|\tilde{\mathbf{r}}^{(t)}\|_2^2 = \|\mathbf{r}^{(t)}\|_{*2}^2 - \sum_{*i=1}^{k} (\mathbf{u}_i^\top \mathbf{r}^{(t)})^2.
\]

命题2.1表明,SRP 精确地去除了当前残差中位于选定历史预测子空间内的分量。该结果是关于训练向量的经验性陈述,不应被解释为训练样本之外的函数正交性保证。

接下来,我们在一个显式的固定子空间噪声模型下给出 SRP 的有限统计解释。假设投影相对于噪声是固定的,这一点至关重要。在标准提升实现中,历史学习器是从相同标签训练得到的,因此投影矩阵可能依赖于标签噪声。因此,以下结果应被解读为投影操作在固定子空间下的刻画,而非完整自适应算法的无条件鲁棒性定理。

###### 命题 2.2(固定子空间噪声与 SNR 刻画。详细证明见附录B (https://arxiv.org/html/2606.17567#A2))。设 \(\mathbf{r} = \mathbf{s} + \boldsymbol{\epsilon}\),其中 \(\mathbf{s} \in \mathbb{R}^n\) 是确定性的,\(\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \nu^2 \mathbf{I}_n)\)。假设 \(\mathbf{P}_k\) 是一个固定的秩为 \(k\) 的正交投影算子,独立于 \(\boldsymbol{\epsilon}\),设 \(\mathbf{Q}_k = \mathbf{I}_n - \mathbf{P}_k\),且 \(d = \operatorname{rank}(\mathbf{Q}_k) = n - k\)。则
\[
\mathbb{E} \|\mathbf{Q}_k \boldsymbol{\epsilon}\|_2^2 = d \nu^2 = \left(1 - \frac{k}{n}\right) \mathbb{E} \|\boldsymbol{\epsilon}\|_2^2.
\]
此外,对于任意 \(\delta \in (0,1)\),以至少 \(1-\delta\) 的概率,
\[
\|\mathbf{Q}_k \boldsymbol{\epsilon}\|_2^2 \le \nu^2 \left[ d + 2\sqrt{d \log(1/\delta)} + 2 \log(1/\delta) \right].
\]
对于完整的投影残差,对于任意 \(\eta > 0\),
\[
\|\mathbf{Q}_k \mathbf{r}\|_2^2 \le (1+\eta) \|\mathbf{Q}_k \mathbf{s}\|_2^2 + (1+\eta^{-1}) \|\mathbf{Q}_k \boldsymbol{\epsilon}\|_2^2.
\]
如果 \(0 \le k < n\),那么投影导向的 SNR 满足
\[
\frac{ \mathbb{E} \|\mathbf{Q}_k \mathbf{s}\|_2^2 }{ \mathbb{E} \|\mathbf{Q}_k \boldsymbol{\epsilon}\|_2^2 } > \frac{ \|\mathbf{s}\|_2^2 }{ \mathbb{E} \|\boldsymbol{\epsilon}\|_2^2 }
\]
当且仅当
\[
\frac{ \|\mathbf{s}\|_2^2 - \mathbb{E} \|\mathbf{Q}_k \mathbf{s}\|_2^2 }{ \|\mathbf{s}\|_2^2 } < \frac{k}{n}.
\]

**算法 1** SCBoost:基于残差正交化的提升框架

**输入**:训练数据 \((\mathbf{X}_{tr}, \mathbf{y}_{tr})\),验证数据 \((\mathbf{X}_{val}, \mathbf{y}_{val})\),弱学习器 \(\mathcal{L}\),迭代次数 \(T\),学习率 \(\eta\),能量阈值 \(\alpha\),CRW 惩罚系数 \(\lambda_{\mathrm{cov}}\),超参数 \(p\)。

1: 初始化 \(\mathbf{F}^{(0)} = \mathbf{0}\),\(\mathbf{H}^{(0)} = []\)
2: **for** \(t = 1\) **to** \(T\) **do**
3:     \(\mathbf{r}^{(t)} \leftarrow \mathbf{y}_{tr} - \sigma(\mathbf{F}^{(t-1)})\)
4:     **if** \(p \cdot (t-1) \ge 1\) **then**
5:         对 \(\mathbf{H}^{(t-1)}\) 进行随机列采样,得到 \(\tilde{\mathbf{H}}^{(t-1)} \in \mathbb{R}^{n \times m}\),其中 \(m = \max(1, \lfloor p \cdot (t-1) \rfloor)\)。
6:         中心化 \(\tilde{\mathbf{H}}^{(t-1)}\) 使其每列均值为零,得到 \(\bar{\mathbf{H}}^{(t-1)}\)。
7:     **if** \(t > 1\) **then**
8:         执行 SVD:\(\mathbf{H}^{(t-1)} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\top\)。
9:         根据式 (LABEL:eq:energy_threshold) 选择前 \(k\) 个分量 \(\mathbf{U}_{*k}\)。
10:        投影残差:\(\tilde{\mathbf{r}}^{(t)} = \mathbf{r}^{(t)} - \mathbf{U}_{*k} (\mathbf{U}_{*k}^\top \mathbf{r}^{(t)})\)。
11:    **else**
12:        \(\tilde{\mathbf{r}}^{(t)} = \mathbf{r}^{(t)}\)。
13:    **end if**
14:    在 \((\mathbf{X}_{*tr}, \tilde{\mathbf{r}}^{(t)})\) 上训练弱学习器 \(h^{(t)}\)。
15:    更新 logits:\(\mathbf{F}^{(t)} = \mathbf{F}^{(t-1)} + \eta h^{(t)}(\mathbf{X}_{*tr})\)。
16:    更新预测历史:\(\mathbf{H}^{(t)} \leftarrow [\mathbf{H}^{(t-1)}, h^{(t)}(\mathbf{X}_{*tr})]\)。
17: **end for**
18: **// 协方差正则加权 (CRW)**
19: 构建验证预测矩阵 \(\mathbf{H}_{*val}\),其中 \(\mathbf{H}_{*val}[i,j] = h^{(j)}(x_i)\),\(x_i \in \mathbf{X}_{*val}\)。
20: 计算协方差矩阵 \(\mathbf{C} = \frac{1}{m} \bar{\mathbf{H}}_{*val}^\top \bar{\mathbf{H}}_{*val}\)。
21: 求解 \(\min_{\mathbf{w} \in \Delta_T} \mathcal{L}\left( \mathbf{y}_{*val}, \sigma(\mathbf{H}_{*val} \mathbf{w}) \right) + \lambda_{\mathrm{cov}} \mathbf{w}^\top \mathbf{C} \mathbf{w}\)。
22: **输出**:最终预测器 \(F(x) = \sum_{t=1}^{T} w_t h^{(t)}(x)\)。

### 2.2 协方差正则加权

**算法描述**。SRP 在学习器归纳之前对训练目标进行正交化,但由于学习器容量有限和有限样本效应,拟合后的学习器可能仍然相关。CRW 在聚合阶段解决这一问题。设 \(\mathbf{H}_{*val} \in \mathbb{R}^{m \times T}\)

相似文章

Operator Boosting 生成帕累托高效的 PDE 替代模型

arXiv cs.LG

Operator Boosting 是一种逐阶段残差学习框架,通过在残差场上训练微型模型来构建紧凑的神经算子替代模型,用于求解 PDE。其精度可与全尺寸模型相媲美甚至更优,同时参数减少高达 95%,在多个基准测试中展示了帕累托改进。