多目标无监督特征选择中的目标诱导偏差与搜索动态
摘要
本文系统研究了不同评估目标(准确率、轮廓系数、PCA重构损失)以及子集大小正则化方向如何影响多目标无监督特征选择中的搜索动态与解质量,结果表明基于轮廓的公式倾向于产生琐碎的低基数解,而PCA损失则能生成紧凑且具有竞争性准确率的子集。
arXiv:2605.21561v1 Announce Type: new
摘要: 无监督特征选择通常被表述为一个多目标优化问题,该问题同时优化子集质量和子集大小。然而,这种公式的行为关键取决于评估目标的选择、子集大小正则化的方向以及初始化策略。我们在一个受控环境中使用一个包含已知信息、冗余和不相关特征类型的合成数据集来研究这些因素。通过将三个评估目标(准确率、轮廓系数、PCA重构损失)与子集大小最小化或最大化相结合,比较了六种公式。结果表明,公式强烈影响搜索动态和生成的Pareto前沿的质量。基于轮廓的公式表现出对琐碎的低基数解的强烈偏向,并且仍然是预测性能的弱代理。相比之下,提出的PCA损失目标生成的紧凑子集在测试准确率上与直接优化监督准确率得到的子集相当。总体而言,研究表明目标设计对于有效的多目标无监督特征选择至关重要。
查看缓存全文
缓存时间: 2026/05/22 08:49
# 多目标无监督特征选择中的目标诱导偏差与搜索动态
来源:https://arxiv.org/html/2605.21561
Thomas Bäck¹, Martijn R. Tannemaat², Anna V. Kononova¹
¹莱顿大学LIACS,莱顿,荷兰
²莱顿大学LUMC,莱顿,荷兰
###### 摘要
无监督特征选择通常被表述为一个多目标优化问题,同时优化子集质量和子集大小。然而,这种表述的行为关键取决于评估目标的选择、子集大小正则化的方向以及初始化策略。我们在一个具有已知信息性、冗余性和无关性特征类型的合成数据集上,控制这些因素进行研究。通过结合三个评估目标:准确率、轮廓系数和PCA重建损失,以及子集大小最小化或最大化,比较了六种表述。结果表明,表述方式强烈影响搜索动态和最终Pareto前沿的质量。基于轮廓系数的表述表现出对低基数平凡解的强烈偏向,并且仍然是预测性能的弱代理指标。相比之下,我们提出的PCA损失目标产生的紧凑子集,其测试准确率与直接优化监督准确率得到的子集相当。总体而言,研究表明目标设计对于有效的多目标无监督特征选择至关重要。
## 1 引言
特征选择(FS)旨在识别一个紧凑的特征子集,以保留数据集的信息内容。这个过程对于具有许多特征的数据集特别有益,因为这些数据集可能由于维度灾难而导致复杂性问题,或者如果对原始数据进行计算(例如在时间序列中)会导致较长的提取时间。通过移除可能无关和冗余的特征,FS降低了计算需求,并通常增强了模型对未见数据的泛化能力。通过将模型限制在更具信息性的特征上,它不太可能将训练数据中的随机噪声误认为是 meaningful 的模式。FS问题本质上是组合性的,搜索空间大小为 \(2^d\),其中 \(d\) 表示特征数量。因此,即使对于中等数量的特征,穷举搜索也是不可行的,这促使了启发式优化策略的发展,例如顺序选择方法和进化算法 [2](https://arxiv.org/html/2605.21561#bib.bib4)。顺序方法基于贪心准则迭代构建子集,而进化算法则探索更广泛的候选子集空间,允许考虑更多独特的特征组合。
候选特征子集通常使用无监督准则(如聚类质量)或在标签可用时使用监督性能指标进行评估。然而,这两种类型的目标都强烈受到子集基数的影响,如果不加以明确控制,可能导致退化解 [12](https://arxiv.org/html/2605.21561#bib.bib23)。缓解这个问题的一种广泛采用策略是将特征选择公式化为一个多目标优化问题,同时优化一个评估目标和一个子集大小正则化器(即最大化准确率同时最小化子集大小)[8](https://arxiv.org/html/2605.21561#bib.bib3)。尽管使用广泛,但这种公式化引入了几个尚未充分探索的设计选择,这些选择可能会显著影响优化行为。特别是,子集大小正则化器的方向(最小化与最大化)以及种群中子集基数的初始分布,都会影响搜索过程,并决定在有限评估预算下哪些Pareto前沿区域是可达到的。此外,在真实数据集中,特征的真实结构是未知的,Pareto前沿通常仅通过目标值来解释,这使得很难理解不同目标与底层特征类型或冗余结构之间的关系。
为了解决这些局限性,我们提出了一个基于具有显式特征分类法的合成数据集的受控实验框架。该数据集被设计为包含信息性特征、线性和非线性冗余特征以及多种形式的噪声,从而能够直接检查所选子集的组成。这使我们能够超越纯粹基于目标的分析,研究不同的优化选择如何影响Pareto最优性以及解在特征内容方面的结构属性。在这个框架内,我们使用三个评估目标研究多目标特征选择:两个无监督目标(即轮廓系数和我们引入的PCA重建损失),以及一个用作基线目标的监督分类目标。这些目标对子集基数表现出不同的敏感性,因此适合分析多目标特征选择中的目标诱导偏差。
我们的研究有三个主要贡献。首先,我们分析了子集大小正则化和初始种群采样策略如何在不同评估目标下塑造Pareto前沿的结构。我们展示了这些设计选择如何决定在有限计算预算下搜索空间的哪些区域被探索,以及对于基于准确率和基于轮廓系数的目标,如何影响可达的权衡。其次,使用具有已知特征分类法的合成数据集,我们分析了Pareto最优解近似值在信息性、冗余性和无关性受控特征方面的组成。这使得我们能够描述不同目标如何选择特征类型。最后,我们引入了一个无监督目标——PCA损失(据我们所知,此前尚未在此背景下应用过),并分析了它在子集大小正则化下的行为,解决了其基数偏差问题。我们根据近似的Pareto前沿结构、特征组成以及与下游基于特征的分类性能的一致性来评估它。
## 2 相关工作
### 2.1 无监督特征选择
无监督特征选择(UFS)旨在没有目标标签的情况下识别信息性特征子集。UFS方法不依赖于已知标签,这使得它们在目标未知或不可靠时适用。通过不依赖目标来选择特征,它降低了过拟合训练数据和信息泄露的风险。在某些情况下,无监督选择方法已被证明可以达到与监督方法相当的性能 [1](https://arxiv.org/html/2605.21561#bib.bib25), [10](https://arxiv.org/html/2605.21561#bib.bib61),同时具有更高的泛化到未见数据的潜力。
UFS方法可以大致分为四种主要策略 [6](https://arxiv.org/html/2605.21561#bib.bib59)。**包装方法**使用下游无监督目标(如聚类质量)评估候选特征子集 [12](https://arxiv.org/html/2605.21561#bib.bib23)。**过滤方法**基于内在数据属性(如相似性保持 [21](https://arxiv.org/html/2605.21561#bib.bib18)、谱结构 [13](https://arxiv.org/html/2605.21561#bib.bib21) 或方差和冗余度量 [9](https://arxiv.org/html/2605.21561#bib.bib17))对特征进行排序或评分。**嵌入方法**将特征选择直接集成到学习过程中,而**混合方法**则结合多种策略,例如使用过滤方法初始化或引导基于包装的搜索。
一种常见的用于无监督特征选择的包装方法涉及使用**聚类算法**来评估所选子集是否在数据中暴露清晰的聚类。它们通常依赖聚类质量度量,如轮廓系数 [23](https://arxiv.org/html/2605.21561#bib.bib16) 或 Davies-Bouldin 指数 [5](https://arxiv.org/html/2605.21561#bib.bib15)。这些度量分别衡量簇内凝聚力和簇间分离度,以及簇内散布与簇间分离的比率。
尽管提供了一种直观的方法来评估约简后的特征集是否通过暴露清晰分离的组来保留有意义的数据结构,但这些目标的自然形式并未考虑**诱导的基数偏差**。在特征选择设置中,通常可以用很少的特征获得好的聚类分数,因为降低的维度可能人为地增强聚类对比度或抑制噪声。因此,这些度量对特征集基数敏感,可能倾向于小而不具信息性的子集。基于此类准则的优化可能导致平凡解,除非这种偏差被明确控制 [12](https://arxiv.org/html/2605.21561#bib.bib23)。此外,将它们用作包装方法可能导致显著的计算成本,因为诸如 k-means 之类的聚类算法必须在优化过程中重复执行。此外,为聚类算法找到正确的超参数值可能很困难,并且可能对子集的感知质量产生很大影响。对于许多需要指定聚类数量的聚类技术,已经表明动态数量的聚类是更可取的 [7](https://arxiv.org/html/2605.21561#bib.bib62)。
这种特征选择中的子集维度偏差并非无监督设置独有。即使是监督目标(如分类准确率)通常对包含无关和冗余特征表现出弱敏感性,这意味着仅优化准确率可能会偏好较大的特征子集。为了解决这种偏差,提出了两种主要策略:(i) 修改目标函数以考虑子集大小,例如通过按子集大小进行归一化 [7](https://arxiv.org/html/2605.21561#bib.bib62), [16](https://arxiv.org/html/2605.21561#bib.bib41),或 (ii) 将特征子集基数显式视为一个单独的目标,并求解由此产生的多目标优化问题 [25](https://arxiv.org/html/2605.21561#bib.bib28), [18](https://arxiv.org/html/2605.21561#bib.bib14), [11](https://arxiv.org/html/2605.21561#bib.bib13)。在本文的其余部分,我们关注后者。
### 2.2 多目标特征选择
通过辅助目标将单目标问题转化为多目标问题被称为**多目标化** [17](https://arxiv.org/html/2605.21561#bib.bib70)。在特征选择中,它通常涉及同时优化一个**评估目标** \(f_1\)(例如,准确率、聚类质量或重建误差)和一个**子集大小正则化目标** \(f_2\),该目标根据所选方向惩罚或奖励所选特征的数量。由此产生的多目标公式旨在通过暴露解质量与子集大小之间的权衡,来明确控制许多评估目标中固有的基数偏差。
除了偏差控制外,多目标化已被证明具有几个潜在优势。它可以减少局部最优的数量并重塑适应度景观,从而更容易高效地探索解空间 [17](https://arxiv.org/html/2605.21561#bib.bib70)。它还在解之间引入了不可比较的区域,这可以促进种群多样性,从而改善探索。虽然可以通过将评估目标和正则化目标组合成一个标量目标函数来保持单目标选择策略,但这需要仔细选择权重,并且不具备前述多目标化的优势。通过近似一组Pareto最优解,多目标策略提供了目标之间权衡的更完整表示 [19](https://arxiv.org/html/2605.21561#bib.bib75)。因此,多目标特征选择已成为一个广泛研究且有前景的特征选择方向,文献中提出了许多进化方法 [14](https://arxiv.org/html/2605.21561#bib.bib76)。
## 3 问题公式化
我们将特征选择视为所有可能特征子集空间上的一个多目标优化问题。令 \(X \in \mathbb{R}^{n \times d}\) 表示包含 \(n\) 个样本和 \(d\) 个特征的原始数据集。候选解由二进制决策向量 \(x \in \{0,1\}^d\) 表示,其中每个元素 \(x_i\) 作为第 \(i\) 个特征的指示器。为了评估候选解的适应度,我们定义过滤后的数据集 \(X_x\) 为 \(X\) 的子矩阵,由 \(x_i=1\) 的列组成。**多目标特征选择**(MOFS)问题被定义为同时最小化两个竞争目标:
\[
\min_{x \in \{0,1\}^d} (f_1(X_x), f_2(x)) \tag{1}
\]
其中 \(f_1(X_x)\) 是评估所选子集质量的评估目标,而 \(f_2(x)\) 是度量子集基数的正则化目标。
## 4 目标函数
### 4.1 轮廓系数目标
轮廓系数目标评估由所选特征子集诱导的聚类质量。给定一个候选解 \(x\),将聚类算法应用于过滤后的数据集 \(X_x\)。轮廓系数 [23](https://arxiv.org/html/2605.21561#bib.bib16) 基于该子空间度量簇内的凝聚力和簇间的分离度。对于 \(X_x\) 中的每个样本 \(i\),令 \(a_i(X_x)\) 表示样本 \(i\) 与同一簇中所有其他样本之间的平均距离,令 \(b_i(X_x)\) 表示样本 \(i\) 与任何其他簇中所有样本之间的最小平均距离。样本 \(i\) 的轮廓系数定义为:
\[
s_i(X_x) = \frac{b_i(X_x) - a_i(X_x)}{\max\{a_i(X_x), b_i(X_x)\}} \tag{2}
\]
过滤后数据集 \(X_x\) 的轮廓系数则由所有样本的平均值给出:
\[
s(X_x) = \frac{1}{n} \sum_{i=1}^{n} s_i(X_x) \tag{3}
\]
我们使用 sklearn [22](https://arxiv.org/html/2605.21561#bib.bib10) 提供的轮廓系数实现。在本文中,聚类标签通过 k-means 获得。对于每个子集 \(x\),聚类数 \(k\) 通过在预定义的候选值范围内最大化轮廓系数来选择。轮廓系数取值范围为 \([-1, 1]\),值越高表示聚类质量越好。然后使用轮廓系数的负值作为评估目标,以进行最小化。
### 4.2 准确率目标
尽管本文主要关注无监督特征选择,但我们包含分类准确率作为参考目标,以提供监督性能基线。对于给定的子集 \(x\),在过滤后的数据集 \(X_x\) 上训练一个随机森林(RF)分类器,并用它来预测类别标签。分类准确率定义为正确分类样本的比例:
\[
\text{acc}(X_x) = \frac{\text{正确预测数量}}{\text{总预测数量}} \tag{4}
\]
准确率取值范围为 \([0, 1]\),值越高表示预测性能越好。然后使用准确率的负值作为评估目标,以进行最小化。相似文章
比随机更差:无监督特征选择中基线的重要性
本文提出将随机特征选择作为基线,并通过实验表明,许多最先进的无监督特征选择方法在性能与效率上均被随机选择超越。
当梯度碰撞:LLM裁判的多目标提示优化的失败模式
本文识别了在使用文本梯度进行LLM裁判的多目标提示优化中的两种失败模式:优化过程中的梯度稀释和推理过程中的指令干扰,表明联合梯度处理会丢失特定于标准的信息。
点态指标误导:多模态逆问题的评估协议
本文表明,对于具有多模态后验的逆问题,像RMSE和MAE这样的点态指标在结构上具有误导性,因为最优点估计会压缩后验并扭曲谱特征。为此,本文提出了一种三部分评估协议,使用逐事件分布准确性、谱保真度诊断和基于覆盖的校准来应对这些失败。
LLM微调中数据选择的长期影响
本文研究了多阶段LLM微调中数据选择策略的长期影响,揭示了短视选择会损害未来适应能力。为此,提出了一种长期视角感知选择(LHAS)目标以缓解这些问题。
评估盲点:大语言模型基准覆盖的体视学理论
本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。