比随机更差:无监督特征选择中基线的重要性
摘要
本文提出将随机特征选择作为基线,并通过实验表明,许多最先进的无监督特征选择方法在性能与效率上均被随机选择超越。
arXiv:2605.22973v1 Announce Type: new
摘要:每年都会提出许多新颖的无监督特征选择方法,然而其实证评估仅限于在选定数据集上计算的监督与无监督评估指标,以及与其他方法的比较。但缺乏公认的评估基线时,很难确定每种方法对现有文献的增量贡献,以及它们所采用方法的有效性。本文提出将随机特征选择作为评估无监督特征选择方法的基线。我们通过实验证明,许多最先进的无监督特征选择方法在性能与效率上均被随机特征选择超越。因此,我们强调,在开发新的无监督特征选择方法的过程中,必须严格考虑将随机特征选择作为基线,以确保相对于随机特征选择有一致的改进。
查看缓存全文
缓存时间: 2026/05/25 08:57
# 比随机更差:无监督特征选择中基线的重要性
来源:https://arxiv.org/html/2605.22973
###### 摘要
每年都有许多新颖的无监督特征选择方法被提出,然而,其实证评估仅限于在选定数据集上计算的监督和无监督评估指标,以及与其他方法的比较。然而,在缺乏既定评估基线的情况下,很难确定这些方法对现有文献的附加值,以及其底层方法的有效性。我们提出使用随机特征选择作为评估无监督特征选择方法的基线。我们通过实证表明,许多最先进的无监督特征选择方法在性能和效率上均不如随机特征选择。因此,我们强调在开发新的无监督特征选择方法时,必须严格考虑将随机特征选择作为基线,以确保方法在随机特征选择基础上取得一致的改进。
*预印本提交至 Elsevier Pattern Recognition Letters。*
###### 关键词:
评估基线,无监督特征选择,随机特征选择,比较分析
††期刊:Pattern Recognition Letters
\affiliation
\[1\]organization=南丹麦大学, city=欧登塞, country=丹麦
\affiliation\[2\]organization=新泽西理工学院, city=纽瓦克, state=新泽西州, country=美国
\affiliation\[3\]organization=Oratio Technologies, city=突尼斯, country=突尼斯
## 1. 引言
评估基线对于机器学习应用至关重要,它提供了一个比较点,用以衡量复杂模型的性能。通常,评估基线是非机器学习模型或非常基础的机器学习模型,有助于评估一个简单朴素模型在特定任务和数据集上的表现。例如,在二分类中,一个始终预测多数类的常函数可以被视为评估分类模型的基线。在回归中,简单的线性回归模型通常充当基线。
随着研究的不断深入,不同的研究不可避免地会在不同的数据集集合上评估不同的方法组合。但重要的是要注意,如果数据集不同,性能质量的比较是不可传递的。方法 B 在数据集集合 X 上可能优于方法 A,方法 C 在数据集集合 Y 上可能优于方法 B,但我们无法就方法 C 和方法 A 在 X、Y 或其他数据集上的比较得出任何结论。因此,如果没有合适的基线,基本上无法证明一个复杂的黑箱模型是否真正增加了价值。如果一个复杂模型仅比一个简单基线好一点点,那么其复杂性和计算成本可能被认为是不合理的。合适的基线有助于识别任务的难度,并确保所取得的性能提升确实有意义,而不仅仅是随机巧合或简单数据结构的结果。
特征选择是选择最能代表数据的最重要和相关的特征,并去除冗余的过程。特征选择通常在监督设置下使用,其中要么计算统计值作为特征重要性(过滤法),要么根据特征对分类器预测的影响来评估特征重要性(包装法)(Dhal and Azad, 2022 (https://arxiv.org/html/2605.22973#bib.bib15))。近年来,无监督特征选择方法因能够在不需要标签的情况下选择信息量最大的特征而受到关注(Guo et al., 2024 (https://arxiv.org/html/2605.22973#bib.bib4); Shang et al., 2023 (https://arxiv.org/html/2605.22973#bib.bib43); Wang et al., 2024 (https://arxiv.org/html/2605.22973#bib.bib3))。
对于监督特征选择,简单的信息论方法,如互信息(MI)(Peng et al., 2005 (https://arxiv.org/html/2605.22973#bib.bib26); Zhou et al., 2022 (https://arxiv.org/html/2605.22973#bib.bib27)),可以测量通过观察特定特征的值所获得的关于类别标签的信息增益,可以作为合适的基线。我们可以将基于方差(Guyon and Elisseeff, 2003 (https://arxiv.org/html/2605.22973#bib.bib157))和基于相关性的方法(Hall, 1999 (https://arxiv.org/html/2605.22973#bib.bib28); Mitra et al., 2002 (https://arxiv.org/html/2605.22973#bib.bib30))视为类似简单的无监督特征选择方法。然而,这些方法可能不适合作为许多数据类型的特征选择基线,例如图像(其中每个特征(像素)的方差看起来相等),或者来自独立源信号的数据。此外,在非常高维的空间中(这可以说是应用特征选择算法最重要的领域之一),它们的性能显著下降,使其变成了一个极其简单的基线,类似于在二元分类中使用随机概率(50%)作为基线,而大多数样本属于其中一个类别。
在本文中,我们提出使用随机特征选择作为评估无监督特征选择方法的基线。随机特征选择是随机排序特征的过程,以提供特征排名和重要性的概念,从而执行特征选择任务。显然,随机特征选择不需要任何标签,因此可以被视为无监督的。它也不需要任何昂贵的计算步骤,因此非常高效。另一方面,在非常高维的空间中,即使一小部分特征仍然可以区分数据点,预计随机特征选择也能提供可接受的总体性能,使其成为评估无监督特征选择方法基线的合适候选者。
本文的其余部分结构如下:在第 2 节 (https://arxiv.org/html/2605.22973#S2) 中,我们提供了无监督特征选择的简要文献综述,重点关注近期方法及其评估策略。在第 3 节 (https://arxiv.org/html/2605.22973#S3) 中,我们讨论了使用随机特征选择作为无监督特征选择方法评估基线的方法论。在第 4 节 (https://arxiv.org/html/2605.22973#S4) 中,我们提供了本文实证评估所使用的实验设置的详细信息。在第 5 节 (https://arxiv.org/html/2605.22973#S5) 中,我们展示了一项深入实验的实验结果,该实验将已建立的和最先进的无监督特征选择方法与随机基线进行比较,讨论了结果并强调了近期文献工作中的不足之处。在第 6 节 (https://arxiv.org/html/2605.22973#S6) 中,我们对本文进行了总结。
## 2. 文献综述
无监督特征选择是数据挖掘和机器学习中的一个重要课题,已经研究了数十年。在更成熟和传统的方法中,基于方差(Guyon and Elisseeff, 2003 (https://arxiv.org/html/2605.22973#bib.bib157))和基于相关性的方法(Hall, 1999 (https://arxiv.org/html/2605.22973#bib.bib28); Mitra et al., 2002 (https://arxiv.org/html/2605.22973#bib.bib30))被认为是最简单的无监督特征选择方式。无监督通用前向过滤拉普拉斯得分(LS)特征选择方法(He et al., 2005 (https://arxiv.org/html/2605.22973#bib.bib106))是最流行的方法之一。它属于谱特征选择的一般框架(Zhao and Liu, 2007 (https://arxiv.org/html/2605.22973#bib.bib107)),计算复杂度为 O(dn²),其中 d 是维度(特征数量),n 是样本数量。无监督特征选择也可以基于所选特征在多大程度上保留数据的簇结构。这是多簇特征选择(MCFS)的方法(Cai et al., 2010 (https://arxiv.org/html/2605.22973#bib.bib139))。
尽管特征选择是机器学习和数据挖掘领域的经典问题之一,但它近年来仍然是许多研究论文的主题。子空间学习、聚类分析和稀疏学习被用于无监督特征选择(SCFS)(Parsa et al., 2019 (https://arxiv.org/html/2605.22973#bib.bib36)),并采用自表达模型来学习簇相似性。使用正则化回归方法来稀疏地捕获特征和簇之间存在的相关性。SOGFS(Wu and Cheng, 2021 (https://arxiv.org/html/2605.22973#bib.bib59))同时执行特征选择和局部结构学习。引入指数加权机制来调整特征权重分布(LLSRFS)(Wang et al., 2024 (https://arxiv.org/html/2605.22973#bib.bib3))。
神经网络嵌入自表达(NNSE)(You et al., 2023 (https://arxiv.org/html/2605.22973#bib.bib45))利用神经网络并将其嵌入到自表达模型中,通过自适应图正则化模块保留局部结构来增强表示能力。方差-协方差子空间距离(VCSDFS)(Karami et al., 2023 (https://arxiv.org/html/2605.22973#bib.bib158))利用数据特征中包含信息的相关性,从而确定所有对应的方差-协方差矩阵具有最小范数性质的特征子集。鲁棒、自适应和灵活图(RAFG)(Jiang et al., 2024 (https://arxiv.org/html/2605.22973#bib.bib147))是一种为无监督特征选择提出的图学习框架。在灵活回归项上施加 L2,1 范数以减轻噪声特征和异常值的不利影响,并结合 L2,1 范数正则化项以确保所选的变换矩阵足够稀疏。然而,近年来提出的大多数方法都聚焦于无监督多视图特征选择问题(Yang et al., 2025 (https://arxiv.org/html/2605.22973#bib.bib148); Cao and Xie, 2024 (https://arxiv.org/html/2605.22973#bib.bib151); Wu et al., 2024 (https://arxiv.org/html/2605.22973#bib.bib152))。
无监督特征选择方法的评估通常基于有限的数据集选择。另一方面,整个评估概念基于与其他现有方法的比较,而缺乏评估基线是这些论文的共同缺点。一些论文,例如 Cai 等人(2010 (https://arxiv.org/html/2605.22973#bib.bib139))的工作,使用所有特征的性能作为基线。然而,在非常高维的空间中,特征之间可以说存在大量冗余,并且许多特征充当噪声。因此,要超越这样的基线并不困难。
只有少数论文关注特征选择算法的评估。Nogueira and Brown (2016 (https://arxiv.org/html/2605.22973#bib.bib51)) 提出了一种方法来衡量特征选择算法在噪声存在下的稳定性。基线适应度指数(BFI)(Mostert et al., 2021 (https://arxiv.org/html/2605.22973#bib.bib153))将特征选择的数量和性能合并为单一度量。Rajabinasab et al. (2024 (https://arxiv.org/html/2605.22973#bib.bib145)) 提出了一种基于添加更多特征所获得增益来评估特征选择过程整体质量和特征选择算法稳定性的方法。然而,这些方法都没有提供一个基线来指导无监督特征选择方法的开发和评估。
## 3. 方法论
我们提出使用随机特征选择作为基线,以指导无监督特征选择算法的开发和评估。我们运行随机特征选择 100 次,并将评估指标的平均值作为随机基线的基准值。突出显示这些值的均值和标准差(例如,在可视化中)也有助于评估无监督特征选择算法的表现优劣。
给定一个包含 n 个实例和 d 个特征的数据集 D = {x_i}_{i=1}^n,特征选择的目标是选择一个包含 k 个特征的子集 F_k ⊂ F_d,其中 F_d 是所有 d 个特征的集合,且 k < d。随机特征选择通过为每个特征 j ∈ {1, ..., d} 分配一个从均匀随机分布 U 中抽取的特征重要性分数 s 来操作。分数向量为 s = [s_1, s_2, ..., s_D],其中 s_j ∼ U。k 个特征通过选择 s 中对应最大分数的 top-k 特征来选取。¹ 所选特征索引的集合 I_k 定义为:
I_k = Top_k({j | s_j}_{j=1}^D) (1)
我们预期在非常高维的空间中存在许多冗余特征。因此,即使随机去除特征,整个过程仍然有望成功。随机特征选择显然也是高效的,因为它只需要生成一些随机值作为特征重要性分数。作为无监督特征选择问题中最简单但仍然合理的解决方案,随机特征选择可以被视为评估和开发无监督特征选择算法的合适基线。
## 4. 实验设置
在本节中,我们介绍实验设置,以评估各种无监督特征选择方法相比随机基线的特征选择性能。实验包括传统方法,如基于方差(Guyon and Elisseeff, 2003 (https://arxiv.org/html/2605.22973#bib.bib157))、基于相关性(Hall, 1999 (https://arxiv.org/html/2605.22973#bib.bib28); Mitra et al., 2002 (https://arxiv.org/html/2605.22973#bib.bib30))、拉普拉斯得分(He et al., 2005 (https://arxiv.org/html/2605.22973#bib.bib106))和 MCFS(Cai et al., 2010 (https://arxiv.org/html/2605.22973#bib.bib139)),以及近期最先进的方法,包括 SCFS(Parsa et al., 2019 (https://arxiv.org/html/2605.22973#bib.bib36))、SOGFS(Wu and Cheng, 2021 (https://arxiv.org/html/2605.22973#bib.bib59))、LLSRFS(Wang et al., 2024 (https://arxiv.org/html/2605.22973#bib.bib3))和 VCDFS (Karami et al., 2023 (https://arxiv.org/html/2605.22973#bib.bib158))。
### 4.1 基准数据集
我们在来自 scikit-feature 仓库(Li et al., 2018 (https://arxiv.org/html/2605.22973#bib.bib56))的大型高维数据集上进行了广泛实验。实验中包含的数据集特征概述见表 1 (https://arxiv.org/html/2605.22973#S4.T1)。
表 1:高维基准数据集的特征相似文章
多目标无监督特征选择中的目标诱导偏差与搜索动态
本文系统研究了不同评估目标(准确率、轮廓系数、PCA重构损失)以及子集大小正则化方向如何影响多目标无监督特征选择中的搜索动态与解质量,结果表明基于轮廓的公式倾向于产生琐碎的低基数解,而PCA损失则能生成紧凑且具有竞争性准确率的子集。
自适应数据选择改善低基线性能下的可穿戴预测
本文评估了可穿戴健康预测中的自适应数据选择策略,发现该方法显著提升了低基线性能参与者的AUROC,但对强基线参与者改善有限。
UnpredictaBench:评估大语言模型分布随机性的基准
UnpredictaBench是一个用于评估大语言模型从目标分布(包括统计和自然语言随机过程)中采样能力的基准。实验表明,当前模型难以捕捉真实的底层分布,在KS@100指标上没有模型超过40%。
为什么我们排名第一的 LightGBM 特征反而让预测效果变差 [D]
Flyback 的一篇博客文章展示了,一个在重要性排名第一的 LightGBM 特征实际上因为目标编码泄露导致预测效果变差,这凸显了仅依赖特征重要性指标的危害。
离线选择器为何无法胜过最佳单一模型:基于edX辍学预测的诊断性研究
本文提出了一个三阶段诊断框架,用于识别离线模型选择器为何无法胜过最佳单一模型,并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义,而非学习器选择或分布偏移,建议重新设计状态或收集新数据,而非进一步调优算法。