论设计无偏的算法机器学习
摘要
本文研究了算法机器学习(如kNN、随机森林)在使用概率抽样设计而非假定数据模型的情况下,对有限总体实现设计无偏预测和分类的条件。它将调查抽样中的基于设计的推断扩展到机器学习算法。
arXiv:2606.28795v1 Announce Type: new
摘要:机器学习(ML)算法,如k近邻(kNN)或随机森林,摒弃了真实数据模型的理想,转而追求预测性能。然而,最小化均方误差(MSE)或F分数无法直接导致无偏性,而这在官方统计等许多场景中至关重要。我们研究了除真实数据模型的存在与知识之外,算法ML能够对给定有限总体实现无偏预测或分类的条件,包括:训练数据如何从总体中抽样、如何调整训练好的预测算法以实现对该总体的无偏预测或分类,以及如何无偏地评估样本外预测或分类的性能。该推断基于样本和训练集的已知概率设计,而非任何假定的分布或模型。
查看缓存全文
缓存时间: 2026/06/30 05:29
# 论设计无偏的算法机器学习 来源:https://arxiv.org/html/2606.28795 Li-Chun Zhang¹¹ 通讯作者:英国南安普敦大学社会统计与人口学系,Highfield SO17 1BJ,南安普敦。电子邮箱:[email protected],南安普敦大学 & 挪威统计局 Siu-Ming Tam,澳大利亚统计局 Luis Sanguiao-Sande,西班牙国家统计局 Wesley Yung,加拿大统计局(已退休) Anders Holmberg,澳大利亚统计局 ###### 摘要 机器学习算法(如 k 近邻 (kNN) 或随机森林)摒弃了真实数据模型的理想,转而追求预测性能。然而,最小化均方误差或 F 分数并不能直接保证无偏性,而无偏性在官方统计等许多场景中至关重要。我们研究算法机器学习(除真实数据模型的存在与认知之外)能够对给定有限总体实现无偏预测或分类的条件,包括:训练数据如何从总体中抽样、如何调整已训练预测算法以对该总体实现无偏预测或分类,以及如何无偏评估样本外预测或分类的性能。推断基于样本和训练集的*已知*概率设计,而非任何*假设的*分布或模型。 关键词 pq-设计、预测估计量、去偏、分类精度 ## 1 引言 Breiman (2001a) 对比了算法文化与数据建模文化,后者摒弃了真实数据模型的理想,转而追求机器学习算法(如 kNN 或随机森林)的预测性能。然而,最小化均方误差或 F 分数并不能直接导致预测或分类的无偏性,而这在有限总体的机器学习应用中至关重要。 例如,许多官方统计被定义为对一个国家人口、经济、社会或环境的描述性总结。尽管官方统计的质量是多维的(例如,联合国,2019;欧盟委员会,2017;加拿大统计局,2017),但以偏差和方差分别衡量的准确性与可靠性是所有质量框架的核心,对于维护公众信任必不可少。 作为官方统计生产的常见方法,抽样调查与 Breiman 对机器学习算法的观点一致。其重点是改进抽样策略,包括概率抽样设计和相关的估计量选择 (Neyman, 1934)。推断基于已知的抽样设计,而不论真实数据模型的存在与否或认知程度如何。相关综述与评价参见 Hansen (1987)、Smith (1994)、Kalton (2002)、Rao (2005, 2011) 以及 Beaumont 和 Haziza (2022)。 著名的 Horvitz-Thompson 估计量 (Horvitz 和 Thompson, 1952) 是最典型的例子,它在从给定总体重复抽样下是精确无偏的。为了利用关于总体的辅助信息(即除抽样设计之外的信息)提高效率,通常采用基于设计的设计辅助方法(例如 Särndal 等,1992),即引入一个将目标结果与已知协变量关联起来的预测模型来调整 Horvitz-Thompson 估计量,但偏差和方差的推断仍基于抽样设计,无需辅助模型是真实数据模型。 Breidt 和 Opsomer (2017) 总结了设计辅助估计的一般“配方”,即通过样本预测残差的加权和来调整总体总量的模型预测,其中权重如同 Horvitz-Thompson 估计量中的逆样本包含概率。 若辅助模型是预训练的(即并非在实际样本上学习),则所得的差值估计量(例如 Särndal 等,1992,第 6.3 节)是精确设计无偏的。另见 Angelopoulos 等 (2023) 针对独立同分布 (IID) 样本的相关方法,无论样本是因规定还是因从有限总体放回抽样而产生。 否则,在实际中更常见的情况是,估计模型意味着所得估计量不再是精确无偏的。为了在此背景下证明任何给定机器学习算法的合理性,一些作者诉诸于渐近一致性概念,即在适当的正则条件下,随着总体和样本规模趋于无穷大时的性质。参见 McConville 和 Toth (2019) 关于递归划分算法生成的回归树,或 Dagdoug 等 (2023) 关于 Breiman (2001b) 原始算法下的随机森林。 然而,正如 Smith (1994) 指出的,渐近一致性概念并不直接适用于作为“真实实体”的给定总体。我们可以观察到另一种一致性概念,源自 Fisher (1956) 和 Neyman (1934) 的工作。对于给定的总体和抽样方法,如果 $\hat{\theta}$ 是总体总量向量 $\theta$ 的无偏估计,则 Fisher (1956) 称 $g(\hat{\theta})$ 对 $g(\theta)$ 是“一致的”;而 Neyman (1934) 称一个总体统计量的区间估计是“一致的”,前提是它能达到指定的覆盖水平。Zhang 等 (2025) 将此类有限样本设计无偏估计量称为 *Neyman-Fisher 一致*。 Sanguiao-Sande 和 Zhang (2021) 提出了一种实现 Neyman-Fisher 一致总体总量估计的方法,该方法在有限样本设定下是精确设计无偏的。特别地,给定任意机器学习算法作为辅助模型,可以将 Rao-Blackwell 化 (Rao, 1945; Blackwell, 1947) 应用于训练集外总体中总预测误差的 Horvitz-Thompson 估计量,从而实现设计无偏性。所得估计量仍像所有其他传统的基于设计的设计辅助估计量一样,显式使用抽样设计权重。 Zhang 等 (2025) 将 Sanguiao-Sande 和 Zhang (2021) 的*子抽样 Rao-Blackwell (SRB)* 技术推广到更大的一类估计量,称为*预测估计量* (Royall, 1970; Valliant 等, 2000),其中总体总量的预测估计量等于观察到的样本总量加上预测的样本外总量。由于可以将任意机器学习算法代入后者,预测估计量可以通过总体的工作模型构建,完全无需使用抽样权重,尽管这样做通常会在从给定总体重复抽样时引入偏差。通过将 Rao-Blackwell 化应用于基于子样本训练的预测估计量,Zhang 等 (2025) 得到了所得 SRB 预测估计量的偏差和均方误差的精确设计无偏估计量。 然而,Zhang 等 (2025) 并未研究能够导致设计无偏预测估计量的机器学习一般条件,也未考虑当预测估计量由样本外单元的单元级分类给出时分类精度的估计问题。 在本文中,我们将聚焦于有限总体抽样下的机器学习条件,这些条件能够通过预测或分类样本外单元来实现总体总量的设计无偏估计。由于推断基于设计,无偏性成立与否与辅助模型或机器学习算法的“真实性”无关。这在机器学习应用中尤其有用,因为此时有限总体的无偏性至关重要。 我们考虑的具体问题是:(i) 训练数据如何从总体中抽样,以便基于观察到的样本内测试误差推断样本外预测误差;(ii) 由训练数据形成的机器学习算法如何通过测试误差进行调整,以产生设计无偏的样本外预测;(iii) 样本外单元级分类如何产生设计无偏的预测估计,以及如何无偏评估相关的分类精度。 在论文的其余部分,第 2 节和第 4 节分别处理无偏预测和无偏分类。第 3 节和第 5 节通过以 kNN 为例的机器学习算法,展示所发展理论的示例、模拟及应用。第 6 节给出结论性评述。 ## 2 设计无偏预测 记 $U = \{1, \dots, N\}$ 为给定的有限总体,每个 $i \in U$ 具有已知的特征向量 $x_i$。记 $s$ 为样本,包含 $n$ 个单元,每个 $i \in s$ 的*结果* $y_i$ 已观测,而总体其余单元的 $y_i$ 未知。我们将所有值 $\{(y_i, x_i): i \in U\}$ 视为常数,无论它们是否已知。机器学习和预测的变异性源于以下两个要素。 首先,让样本 $s$ 通过概率抽样设计从 $U$ 中选取,该设计称为 *p-设计*,记为 $$s \sim p(s),$$ 其中 $p(s)$ 在所有可能的 $s$ 上求和为 1,且对于任意 $i \in U$ 有 $\pi_i = \Pr(i \in s) > 0$。接下来,对于算法机器学习,让 $s_1$ 是从 $s$ 中取出的*训练*集,$s_2 = s \setminus s_1$ 是对应的*测试*集,它们根据特定设计生成,称为 *q-设计*,记为 $$s_1 \sim q(s_1 \mid s).$$ 例如,$s_1$(大小为 $n_1$)可以通过简单随机不放回抽样(简称 SRS)从 $s$ 中选取。或者,$s_1$ 可以通过对 $s$ 进行自助法生成,此时 $s$ 中的给定单元可能在 $s_1$ 中被多次选中,而 $s_2$ 包含 $s$ 中从未被选入 $s_1$ 的单元。或者,通过 $L$-折法,通过随机 $L$-划分 $s$ 创建 $L$ 个测试集 $s_2$,对应的训练集 $s_1 = s \setminus s_2$ 随之确定。 无论如何,如果 $(s_1, s)$ 的联合分布允许分解 $$q(s_1 \mid s) p(s) = f(s_1) f(s \mid s_1) \tag{1}$$ 使得非空测试集 $s_2$ 在给定 $s_1$ 条件下可视为来自 $U \setminus s_1$ 的概率样本,那么我们认为 *pq-设计* 对于推断是定义良好的。注意,平凡的 q-设计 $\Pr(s_1 = s \mid s) = 1$ 不能产生定义良好的 pq-设计,因为 $s_2 \equiv \emptyset$,尽管它对于具有默认设置的机器学习(如固定 $k$ 的 kNN)是可行的。然而,定义良好的 pq-设计对于机器学习的推断是必要的。 作为一个典型的目标,我们考虑总体 $y$-总量,它可以分解为观察到的样本总量和总体其余部分的未知总量,记为 $$Y = \sum_{i \in U} y_i = \sum_{i \in s} y_i + \sum_{i \notin s} y_i = \sum_{i \in s} y_i + Y_R,$$ 其中下标 $R = U \setminus s$。令 $Y$ 的一个*预测估计量*为 $$\hat{Y} = \sum_{i \in s} y_i + \sum_{i \notin s} \hat{y}_i = \sum_{i \in s} y_i + \hat{Y}_R,$$ 其中 $\hat{y}_i$ 可由任意机器学习预测或分类算法给出。 特别地,由于样本外总量 $Y_R$ 在重复抽样 $s \sim p(s)$ 下随 $s$ 变化,$Y$(作为常数)的无偏估计等价于 $Y_R$(作为随机变量)的无偏预测,记为 $$E_p(\hat{Y}) = Y \quad \Leftrightarrow \quad E_p(\hat{Y}_R - Y_R) = 0.$$ ### 2.1 代表性训练 记 $\mu(x, s_1)$ 为一个从训练数据 $\{(y_j, x_j : j \in s_1\}$ 获得的预测器,旨在预测给定特征向量 $x$ 对应的结果 $y$ 值。该符号表示,对于训练集外的任何单元 $i \notin s_1$,若 $x_i = x$,其预测 $y$ 值 $\mu(x, s_1)$ 仅随 $x$ 和 $s_1$ 变化。 #### 定义 一个定义良好的 *pq-设计* 被称为能产生 $\mu(x, s_1)$ 的*代表性训练*,如果 $\forall i \in U$,有 $$E_{pq} \big( \mu(x_i, s_1) \mid i \in s_2 \big) = E_{pq} \big( \mu(x_i, s_1) \mid i \notin s \big). \tag{2}$$ 换句话说,代表性训练是指:通过给定的 pq-设计,对于任何单元 $i \in U$,在给定其位于训练集外的条件下,预测值 $\mu(x_i, s_1)$ 的期望是相同的,无论该单元是需要预测的(即 $i \notin s$)还是被观测的并可用于推断(即 $i \in s_2$)。为简便起见,我们说一个单元 $i$ 是*袋外 (OOB)* 的,如果它在样本中但不在训练集中,即 $i \in s_2$;而如果 $i \notin s$,则它是样本外的。 代表性训练的概念((2) 式)是直观的,因为它允许我们将 $\mu(x, s_1)$ 未观测的样本外表现与其观测到的样本内 OOB 表现联系起来。例如,在给定 $s_1$ 的条件下,所有预测误差 $\mu(x_i, s_1) - y_i$ 可以根据 $U \setminus s_1 = s_2 \cup R$ 进行划分,其中 $s_2$ 是根据 pq-设计从 $U \setminus s_1$ 中抽取的样本,这将使我们能够稍后对 $\hat{Y}_R = \sum_{i \in R} \mu(x_i, s_1)$ 的预测偏差进行推断。 ###### 引理 1。 一个定义良好的 pq-设计能产生代表性训练, * 对于所有可能的机器学习算法 $\mu(x, s_1)$,当且仅当 $\forall i \in U$,有 $$\pi_{2i} \coloneqq \Pr(i \in s_2 \mid s_1) = \frac{\pi_i - \Pr(i \in s_1)}{1 - \Pr(i \in s_1)} \mathbb{I}(i \notin s_1) \tag{3}$$ * 对于任意给定的机器学习算法 $\mu(x, s_1)$,当且仅当 $\forall i \in U$,有 $$\text{Cov}_{s_1} \big( \mu(x_i, s_1), \pi_{2i} \mid i \notin s_1 \big) = 0. \tag{4}$$ 证明见附录 A,文中其他结果的证明也在此给出。由于条件 (3) 蕴含 (4),后者可被视为代表性训练的更为一般的条件:这意味着*任何*定义良好的 pq-设计都可能产生某些模型(即满足 (4) 的模型)的代表性训练。然而,条件 (4) 可能无法验证,因为它要求所有相关的无条件及条件抽样概率已知。因此条件 (3) 更易于应用,在此条件下 pq-设计保证*所有*可能的机器学习算法都具有代表性训练。 ###### 推论 1。 给定 $s$ 通过 SRS 从 $U$ 中抽取,$s_1$ 通过 SRS 从 $s$ 中抽取,则 SRS-SRS pq-设计满足 (3)。 ###### 示例 1。 令 $U = \{i_1, i_2, i_3, i_4\}$,且 $(n, n_1) = (2, 1)$ 对应 SRS-SRS pq-
相似文章
算法公平性的统计与结构性方法
本博士论文批判了当前机器学习中的公平性度量方法,并提出统计假设检验和结构性分析来解决偏差问题,重点关注网络和层级上下文。
通过将公平性视为对称操作来检测和缓解偏见
本文提出将公平性视为机器学习分类器中的对称操作,通过基于损失的规范化来实现在固定能力特征的同时,交换敏感属性时的不变性。该框架实现了超过90%的偏见减少,且准确率损失极小,无需因果图知识。
用于样本高效连续控制的无偏模型化表示
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。
类别不平衡约束下少数类财务困境预测的机器学习方法比较评估
本文对在严重类别不平衡条件下预测财务困境的经典方法、集成方法和神经网络方法进行了比较评估,使用SMOTE进行过采样,SHAP进行可解释性分析。
@SOURADIPCHAKR18:典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts……
这项工作提出使用特权信息来主动采样强化学习中的rollouts,改进了典型的盲目采样方法。