Simplex约束的稀疏Bagging:从均匀先验到稀疏后验的集成学习转变

arXiv cs.AI 论文

摘要

介绍Simplex约束的稀疏Bagging (SCSB),一种训练后框架,利用袋外样本在概率单纯形上优化估计器权重,实现高达96%的集成压缩并改进校准。

arXiv:2606.13589v1 公告类型:交叉 摘要:我们提出Simplex约束的稀疏Bagging(SCSB),这是一个数学上严谨的框架,用于基于bootstrap的Bagging集成后训练压缩和概率校准。标准的Bagging集成(如随机森林、Bagged SVM和Bagged神经网络)为所有组成估计器分配均匀的投票权重。然而,这种朴素的均匀先验忽略了基估计器不同的局部能力,并导致模型过度自信。我们将集成剪枝和校准形式化为一个在概率单纯形上的联合优化问题,通过最小化袋外(OOB)损失。为了诱导稀疏性,我们解决了理论上的“L1-单纯形悖论”——即L1范数在单纯形上是常数且无法剪枝的数学现实——通过引入一个凹二次惩罚项。SCSB是模型无关的,实现了高达96%的集成压缩,带来线性推理加速和更优的概率校准(降低期望校准误差),同时保持或增强泛化准确性。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:13

# Simplex-Constrained Sparse Bagging: 从均匀先验到稀疏后验的集成学习转换
Source: https://arxiv.org/html/2606.13589
Meher Sai Preetam Madirajumehersaipreetam@gatech\.eduMeher Bhaskar Madirajumeherbhaskar\.madiraju@gatech\.edu

###### 摘要

我们提出 **Simplex-Constrained Sparse Bagging (SCSB)**,这是一个数学上严谨的框架,用于基于自助法装袋集成(bagging ensembles)的训练后压缩和概率校准。标准装袋集成(如随机森林、装袋支持向量机和装袋神经网络)赋予所有组成估计器均匀的投票权 \(w_i=1/N\)。然而,这种朴素的均匀先验忽略了基估计器在不同局部区域的能力差异,并导致模型过度自信。我们将集成剪枝和校准建模为概率单纯形 \(\Delta^{N}\) 上的联合优化问题,通过最小化包外(Out-Of-Bag, OOB)损失来求解。为诱导稀疏性,我们解决了理论上的 “L1-单纯形悖论”——即 L1 范数在单纯形上是常数因此无法剪枝的数学事实——通过引入一个凹二次惩罚项。SCSB 是模型无关的,可实现高达 96% 的集成压缩,带来线性推理加速和更优的概率校准(降低期望校准误差),同时保持或提升泛化准确率。

关键词: 集成剪枝, 概率校准, 凸优化, 单纯形约束, 模型压缩。

## I. 引言

集成方法,特别是装袋(Bootstrap Aggregating)[1 (https://arxiv.org/html/2606.13589#bib.bib1)] 及其扩展如随机森林 [2 (https://arxiv.org/html/2606.13589#bib.bib2)],是机器学习中最稳健且应用最广泛的范式之一。通过在训练数据的自助样本上训练多个基估计器并平均其预测,装袋在不增加偏差的情况下降低了方差。然而,这种方差降低伴随着高昂的计算成本。大型集成需要大量内存占用,并在推理过程中引入显著的计算延迟,使其难以部署在资源受限或实时的生产环境中。

此外,传统装袋依赖于朴素的均匀先验,即每个基估计器被赋予相等的投票权重 \(w_j=1/N\)。这种均匀先验假设存在两个主要缺陷:

1. 1. 校准过度自信:概率估计器的均匀平均倾向于将集成输出推向中间值,但当估计器之间存在相关性时,会导致在类别边界附近出现校准不良、过度自信的预测,从而增大期望校准误差(ECE)[10 (https://arxiv.org/html/2606.13589#bib.bib10)]。
2. 2. 估计器冗余:在自助法集成中,很大一部分基估计器是冗余的或代表噪声子空间。对它们一视同仁会限制泛化能力并浪费推理计算 [14 (https://arxiv.org/html/2606.13589#bib.bib14)]。

为解决这些局限性,我们提出 **Simplex-Constrained Sparse Bagging (SCSB)**,一个将装袋集成从均匀先验转变为稀疏后验的训练后框架。通过利用包外(OOB)验证样本在概率单纯形上优化估计器权重,我们学习到一个稀疏的后验权重分布。权重可忽略的估计器被完全剪枝,从而得到一个显著更小的集成。剩余活跃估计器被加权以最小化损失,从而改善校准和泛化能力。

标准稀疏编码方法依赖 Lasso(L1 正则化)将权重置零 [7 (https://arxiv.org/html/2606.13589#bib.bib7)]。然而,当优化被约束在概率单纯形上时,权重向量的 L1 范数是常数。因此,标准的 L1 正则化无法诱导稀疏性。SCSB 通过使用凹二次惩罚项 \(-\lambda\|w\|_2^2\) 解决了这个“L1-单纯形悖论”,它将权重推向单纯形的边界,从而得到精确的零权重。

我们的贡献总结如下:

- • 将集成剪枝和校准建模为概率单纯形 \(\Delta^{N}\) 上的联合优化问题,通过最小化包外(OOB)损失来避免数据泄漏。
- • 通过引入凹二次惩罚项来解决理论上存在的 L1-单纯形悖论,并提供其顶点收敛的数学证明。
- • 为分类(对数损失)和回归(均方误差)推导出解析梯度,以便通过 SLSQP 实现高效、快速收敛的优化。
- • 实验证明 SCSB 可实现高达 96% 的集成压缩,带来线性推理加速和更优的概率校准,同时保持或提升泛化准确率。

## II. 相关工作

### II-A. 集成剪枝

集成剪枝旨在从预训练的集成中选择一个估计器子集 [4 (https://arxiv.org/html/2606.13589#bib.bib4)]。传统方法主要采用启发式搜索技术(例如,遗传算法、贪心搜索)和基于排序的剪枝(按验证性能对估计器排序并选择前 \(k\) 个)[3 (https://arxiv.org/html/2606.13589#bib.bib3),5 (https://arxiv.org/html/2606.13589#bib.bib5)]。这些方法虽然简单,但不能联合优化所选估计器的权重,且缺乏数学保证。SCSB 在一个统一的约束框架内同时进行选择和权重优化。

### II-B. 堆叠与数据泄漏

堆叠泛化(Stacking)训练一个元估计器来组合基预测 [6 (https://arxiv.org/html/2606.13589#bib.bib6)]。然而,在训练集上进行堆叠会遭受严重的数据泄漏,导致元模型过拟合。通常需要在基训练阶段进行昂贵的 \(K\) 折交叉验证来解决此问题。相比之下,装袋集成为每个估计器自然地提供了包外(OOB)样本,这是一个内置的、无泄漏的验证集。SCSB 利用这些 OOB 样本来优化权重,无需额外的训练开销或验证集拆分。

### II-C. L1-单纯形悖论

稀疏编码和模型压缩通常依赖 Lasso(L1 正则化)将权重置零 [7 (https://arxiv.org/html/2606.13589#bib.bib7)]。然而,当优化被约束在概率单纯形(\(\sum w_j=1, w_j\geq 0\))上时,权重向量的 L1 范数是数学常数(\(\|w\|_1=\sum|w_j|=\sum w_j=1\))。因此,标准的 L1 正则化在单纯形约束域中无法诱导稀疏性。SCSB 通过使用凹二次惩罚项 \(-\lambda\|w\|_2^2\) 解决了这个悖论,它将权重推向单纯形的边界,从而得到精确的零权重。

### II-D. 概率校准

概率校准确保模型预测的置信度与经验准确率保持一致 [10 (https://arxiv.org/html/2606.13589#bib.bib10)]。传统的校准方法,如 Platt 缩放 [8 (https://arxiv.org/html/2606.13589#bib.bib8)] 和保序回归 [9 (https://arxiv.org/html/2606.13589#bib.bib9)],是在训练后应用于集成的最终预测。相比之下,SCSB 通过最小化包外样本的对数损失,将概率校准直接嵌入到集成压缩过程中,从而产生自然校准良好的集成预测。

## III. 提出的方法:SCSB

### III-A. 基础集成与 OOB 指示变量

令 \(\mathcal{H}=\{f_1, f_2, \dots, f_N\}\) 为一个在数据集 \(\mathcal{D}=\{(x_i,y_i)\}_{i=1}^M\) 的自助样本上训练得到的装袋集成。对于每个样本 \(i\) 和估计器 \(j\),我们定义包外(OOB)指示变量 \(I_{i,j}\) 如下:

\[
I_{i,j}=\begin{cases}
1 & \text{if sample } i \text{ is Out-of-Bag for model } j \\
0 & \text{otherwise}
\end{cases}
\tag{1}
\]

### III-B. 无泄漏的 OOB 集成估计

为了在无数据泄漏的情况下评估集成,我们计算加权集成的 OOB 预测。对于样本 \(i\),加权预测仅使用样本 \(i\) 为包外的模型来计算:

\[
\hat{y}_i^{\text{OOB}}(w)=\frac{\sum_{j=1}^N w_j I_{i,j} f_j(x_i)}{\sum_{j=1}^N w_j I_{i,j}}
\tag{2}
\]

这种表述确保了优化目标代表真实的泛化性能,并防止了权重选择过程中的过拟合。

### III-C. 单纯形优化与稀疏惩罚

我们通过求解以下约束优化问题来寻找最优权重向量 \(w^*\):

\[
\min_w \mathcal{L}(w):=\frac{1}{M}\sum_{i=1}^M \text{Loss}\left(y_i, \hat{y}_i^{\text{OOB}}(w)\right) - \lambda\|w\|_2^2
\tag{3}
\]

满足约束条件:
\[
w_j \geq 0 \quad \forall j\in\{1,\dots,N\}, \quad \sum_{j=1}^N w_j = 1
\tag{4}
\]

其中,Loss 对于分类是对数损失(Log-Loss),对于回归是均方误差(MSE),且 \(\lambda \geq 0\) 控制凹惩罚的强度。

### III-D. 优化算法与梯度

我们使用序列最小二乘规划(SLSQP)[11 (https://arxiv.org/html/2606.13589#bib.bib11)] 来解决优化问题。为确保数值效率和快速收敛,我们推导出精确的解析梯度。

令 \(D_i(w)=\sum_{j=1}^N w_j I_{i,j}\) 为样本 \(i\) 的活动 OOB 权重之和。

#### III-D1. 分类梯度

对于分类,令 \(P_{i,j,c}\) 为基模型 \(j\) 对样本 \(i\) 预测类别 \(c\) 的概率,令 \(Y_{i,c}\in\{0,1\}\) 为 one-hot 编码的真实标签。集成 OOB 预测为 \(p_{i,c}(w)=\frac{\sum_j w_j I_{i,j} P_{i,j,c}}{D_i(w)}\)。对数损失目标关于权重 \(w_k\) 的梯度为:

\[
\frac{\partial \mathcal{L}_{clf}}{\partial w_k}= -\frac{1}{M}\sum_{i=1}^M \frac{I_{i,k}}{D_i(w)}\left[\sum_{c=1}^C \frac{Y_{i,c}P_{i,k,c}}{p_{i,c}(w)} - 1\right] - 2\lambda w_k
\tag{5}
\]

**分类梯度证明**:OOB 样本上的多类对数损失目标为:

\[
\mathcal{L}_{clf}(w)= -\frac{1}{M}\sum_{i=1}^M \sum_{c=1}^C Y_{i,c}\log p_{i,c}(w) - \lambda\sum_{j=1}^N w_j^2
\]

对 \(w_k\) 求导 \(p_{i,c}(w)\):

\[
\frac{\partial p_{i,c}(w)}{\partial w_k}= \frac{I_{i,k}P_{i,k,c}D_i(w) - I_{i,k}\sum_j w_j I_{i,j} P_{i,j,c}}{D_i(w)^2}= \frac{I_{i,k}}{D_i(w)}\left(P_{i,k,c} - p_{i,c}(w)\right)
\]

应用链式法则:

\[
\frac{\partial \mathcal{L}_{clf}}{\partial w_k}= -\frac{1}{M}\sum_{i=1}^M \sum_{c=1}^C \frac{Y_{i,c}}{p_{i,c}(w)} \frac{\partial p_{i,c}(w)}{\partial w_k} - 2\lambda w_k
= -\frac{1}{M}\sum_{i=1}^M \sum_{c=1}^C \frac{Y_{i,c}}{p_{i,c}(w)} \frac{I_{i,k}}{D_i(w)}\left(P_{i,k,c} - p_{i,c}(w)\right) - 2\lambda w_k
= -\frac{1}{M}\sum_{i=1}^M \frac{I_{i,k}}{D_i(w)}\left[\sum_{c=1}^C \frac{Y_{i,c}P_{i,k,c}}{p_{i,c}(w)} - \sum_{c=1}^C Y_{i,c}\right] - 2\lambda w_k
\]

由于 \(\sum_{c=1}^C Y_{i,c}=1\),结果得证。\(\blacksquare\)

#### III-D2. 回归梯度

对于回归,令 \(f_j(x_i)\) 为估计器 \(j\) 的连续值预测。MSE 目标关于权重 \(w_k\) 的梯度为:

\[
\frac{\partial \mathcal{L}_{reg}}{\partial w_k}= \frac{2}{M}\sum_{i=1}^M \frac{I_{i,k}}{D_i(w)} \left(\hat{y}_i^{\text{OOB}}(w) - y_i\right) \times \left(f_k(x_i) - \hat{y}_i^{\text{OOB}}(w)\right) - 2\lambda w_k
\tag{6}
\]

**回归梯度证明**:OOB 样本上的 MSE 目标为:

\[
\mathcal{L}_{reg}(w)= \frac{1}{M}\sum_{i=1}^M \left(\hat{y}_i^{\text{OOB}}(w) - y_i\right)^2 - \lambda\sum_{j=1}^N w_j^2
\]

对 \(w_k\) 求导 \(\hat{y}_i^{\text{OOB}}(w)\):

\[
\frac{\partial \hat{y}_i^{\text{OOB}}(w)}{\partial w_k}= \frac{I_{i,k}f_k(x_i)D_i(w) - I_{i,k}\sum_j w_j I_{i,j} f_j(x_i)}{D_i(w)^2}= \frac{I_{i,k}}{D_i(w)}\left(f_k(x_i) - \hat{y}_i^{\text{OOB}}(w)\right)
\]

应用链式法则,我们得到:

\[
\frac{\partial \mathcal{L}_{reg}}{\partial w_k}= \frac{2}{M}\sum_{i=1}^M \left(\hat{y}_i^{\text{OOB}}(w) - y_i\right) \frac{\partial \hat{y}_i^{\text{OOB}}(w)}{\partial w_k} - 2\lambda w_k
= \frac{2}{M}\sum_{i=1}^M \frac{I_{i,k}}{D_i(w)} \left(\hat{y}_i^{\text{OOB}}(w) - y_i\right) \times \left(f_k(x_i) - \hat{y}_i^{\text{OOB}}(w)\right) - 2\lambda w_k
\]

代入导数即得梯度。\(\blacksquare\)

## IV. 理论分析

### IV-A. L1-单纯形悖论的证明

令权重向量 \(w\) 被约束在概率单纯形 \(\Delta^{N}=\{w\in\mathbb{R}^N: w_j\geq 0, \sum w_j=1\}\) 上。在这些约束下,\(w\) 的 L1 范数为:

\[
\|w\|_1 = \sum_{j=1}^N |w_j| = \sum_{j=1}^N w_j = 1
\tag{7}
\]

由于 \(\|w\|_1\) 在整个可行域上是常数,其关于任何活动坐标的梯度为零:

\[
\nabla_w \|w\|_1 = 0 \quad \forall w\in \text{int}(\Delta^{N})
\tag{8}
\]

因此,在目标函数中添加 L1 惩罚(Lasso)对优化路径没有影响,且无法诱导稀疏性。

### IV-B. 凹惩罚的几何性质

SCSB 通过使用凹二次惩罚项 \(R(w)=-\|w\|_2^2\) 来解决此问题。由于负

相似文章

Bayesian-Agent:后验引导的LLM代理技能进化框架

Hugging Face Daily Papers

Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。

捕捉移动子空间:超越平稳性的低秩老虎机

arXiv cs.LG

本文研究了分段平稳的低秩线性上下文老虎机,提出了SPSC算法,该算法实现了与内在秩(而非环境维度)成比例的动态遗憾,并刻画了在标量反馈下子空间恢复的辨识边界。