分布漂移下泛化边界中的体制到达不确定性
摘要
本文提出一个理论框架,用于量化当训练分布与部署分布因潜在体制动态(建模为马尔可夫切换过程)不同时的部署风险,提供了精确分解和有限样本边界。
arXiv:2606.02657v1 公告类型:新
摘要:标准泛化边界假设训练分布和部署分布相同或静态,且未考虑体制切换环境(其中平静状态与危机状态的比例不同)。本文提出一个框架,通过量化因体制组成不匹配(当分布漂移为马尔可夫切换时)而产生的额外风险,来泛化体制感知模型。我们获得精确分解,将体制不匹配与体制敏感性分离;我们利用经过谱间隙校正的有效样本量将边界扩展至β-混合数据;并且我们展示了合成数据以及全球25年股票指数的极小极大下界。所提出的惩罚项是一种事后实现的泛化差距,而仅基于训练的估计器未显示显著相关性:危机的特征几何结构可以被检测到,但时间到达规律不能。因此,该框架并非预测机器。在体制变化的罕见情况下,预测未来体制的组成仍是一个开放问题。
查看缓存全文
缓存时间: 2026/06/03 09:39
# 分布偏移下泛化界中的机制到达不确定性
来源:https://arxiv.org/html/2606.02657
###### 摘要
标准泛化界假设训练分布和部署分布相同或静态,未考虑平静状态与危机状态比例不同的机制切换环境。本文提出一个框架,通过量化因机制组合不匹配带来的额外风险,对机制感知模型进行推广,其中分布偏移遵循马尔可夫切换。我们得到一个精确的分解,将机制不匹配与机制敏感性分离;利用经谱间隙校正的有效样本量,将界限扩展到β混合数据;并在合成数据和25年全球股指数据上展示了极小化极大下界。所提出的惩罚项是事后实现的泛化差距,而仅基于训练的估计量未显示显著相关性:危机的特征几何可被检测,但时间到达不可预测。因此,该框架并非预测机器。在稀有的机制变化情境下,预测未来机制的组成仍是一个开放问题。
## 1 引言
一个在训练期间表现良好的预测模型,通常被认为在部署后也能同样表现良好。然而在实践中,这一假设经常被违反,因为生成数据的环境随时间变化。统计学习理论传统上研究在训练和部署数据来自同一分布时的泛化问题(Vapnik, 1998 (https://arxiv.org/html/2606.02657#bib.bib3); Bousquet 等, 2004 (https://arxiv.org/html/2606.02657#bib.bib4))。这一假设在数学上很方便,在许多经典场景中也相当合理。但当底层系统本身随时间演化时,这一假设就变得难以成立。
许多实际应用在结构性变化不可避免的环境中运行。临床风险模型因疾病周期、治疗实践的演变以及医院条件的变化而面临不断变化的患者群体。入侵检测系统在正常行为与主动攻击交替的环境中运行。自主系统必须在变化的天气、交通和光照条件下运行。在这些情况下,训练性能与部署性能之间的差异往往不仅仅是过拟合的结果,而是因为模型在条件与训练期间观察到的条件系统性不同的情况下部署(Kifer 等, 2004 (https://arxiv.org/html/2606.02657#bib.bib11); Quionero-Candela 等, 2008 (https://arxiv.org/html/2606.02657#bib.bib5))。
本文通过潜在机制动力学为研究这一问题开发了一个理论框架。我们将环境建模为一个两状态马尔可夫过程,包含一个平静机制和一个危机机制。训练分布表示为机制条件分布的混合,其组成参数为 $\pi$,而一步前向的部署分布取决于进入危机机制的转移概率 $p_{01}$。每当 $\pi \neq p_{01}$ 时,训练和部署环境的组成就不同。我们表明,这种不匹配直接增加了未来的部署风险,其幅度由不匹配的严重程度以及假设类下机制的可区分性共同决定。
该分析得出几个理论结果,共同刻画了机制不匹配如何影响未来部署风险。我们推导出将未来风险与机制组成差异直接联系起来的精确分解(引理 4.1 (https://arxiv.org/html/2606.02657#S4.Thmtheorem1)),建立部署风险的高概率有限样本上界(定理 4.13 (https://arxiv.org/html/2606.02657#S4.Thmtheorem13)),并构建一个匹配的极小化极大下界,表明不匹配惩罚项代表一个基本限制而非分析瑕疵(定理 4.15 (https://arxiv.org/html/2606.02657#S4.Thmtheorem15))。我们的方法结合了领域适应、相依学习理论和机制切换模型的思想(Ben-David 等, 2010 (https://arxiv.org/html/2606.02657#bib.bib1); Yu, 1994 (https://arxiv.org/html/2606.02657#bib.bib7); Hamilton, 1989 (https://arxiv.org/html/2606.02657#bib.bib6))。
该框架还引入了几个区别于现有分布偏移方法的特征。机制差异使用 $\mathcal{H}\Delta\mathcal{H}$ 散度(Ben-David 等,2010 (https://arxiv.org/html/2606.02657#bib.bib1))进行量化,这比全变差距离更紧致,并且可以通过领域分类从有限无标签样本中估计。分析在几何 $\beta$ 混合相依性下进一步展开,利用 Yu (1994 (https://arxiv.org/html/2606.02657#bib.bib7)) 的分块方法从转移结构推导出显式的混合系数。这自然引入了有效样本量 $n_{\mathrm{eff}}$,它随着机制持续性的增加而减少。我们还建立了一个不可约性结果,表明未来部署风险的任何有效证书必然包含一个作为加性成分的机制不匹配惩罚项,且独立于所使用的具体学习算法。
在合成数据上的实验验证确认了理论结构。在真实股指数据上,我们展示了使用事后实现的未来危机比例计算出的惩罚项与实际训练到部署的差距之间的斯皮尔曼相关系数为 $\rho = 0.729$。然而,进一步分析表明,在标准训练窗口长度下,部署前估计惩罚项并不可靠,因为这需要预测未来的机制组成。因此,该框架提供了一个理解部署失败的诊断工具,而非可部署的预测系统,并突显了将未来机制组成的更好预测作为未来工作的开放问题。
## 2 相关工作
### 2.1 领域适应与分布偏移下的泛化
统计学习理论中长期以来面临的主要问题是,在一个分布上训练的模型是否能在另一个分布上有效。Ben-David 等人 (2010 (https://arxiv.org/html/2606.02657#bib.bib1)) 的重要工作表明,训练性能和模型复杂度并非影响目标域风险的唯一因素;由 $\mathcal{H}\Delta\mathcal{H}$ 散度量化的分布差异项也起到作用。该差异的一个关键优势是可以从有限数量的无标签样本中估计,而全变差距离在实践中难以直接估计。由于 $\mathcal{H}\Delta\mathcal{H}$ 散度受全变差上界约束(引理 4.2 (https://arxiv.org/html/2606.02657#S4.Thmtheorem2)),使用 $\mathcal{H}\Delta\mathcal{H}$ 散度而非全变差可得到更紧致且更实用的分布偏移刻画。当前的理论主要基于静态源分布和目标分布以及独立采样。然而,我们的设置不同,因为部署的分布通过潜在机制转换动态变化。
Mansour 等人 (2009 (https://arxiv.org/html/2606.02657#bib.bib2)) 的工作将领域适应扩展到多个源分布,并强调了混合权重在控制适应性能中的作用。在我们的框架中,由于训练观测 $P_{\mathrm{mix}} = (1-\pi)P_0 + \pi P_1$,相同的混合结构自然出现。关键区别在于,混合比例并非由学习器选择,而是基于历史机制动力学,并且可能与未来的部署组成不同。
### 2.2 相依数据与混合过程下的泛化
在大多数经典泛化理论中,通常假设观测是独立的。在序列相依性下,这一假设不成立,因为观测不是独立的,有效样本量小于名义样本量。将学习理论扩展到相依序列由 Yu (1994 (https://arxiv.org/html/2606.02657#bib.bib7)) 开创,他开发了一个分块框架以获得 $\beta$ 混合相依序列的一致收敛结果。其思想是将观测划分为近似独立的块,并将有效块的数量用作样本量。我们沿用这一构造,并得到作为底层马尔可夫转移结构函数的显式有效样本量(定理 4.7 (https://arxiv.org/html/2606.02657#S4.Thmtheorem7))。
马尔可夫链的混合行为已被广泛研究,包括 Davydov (1973 (https://arxiv.org/html/2606.02657#bib.bib8)) 的工作,他在标准遍历性条件下建立了指数衰减速率。在我们的假设下,这产生形如 $\beta(k) \leq C_\mu |\lambda_2|^k$ 的混合系数,其中 $\lambda_2$ 表示转移矩阵的非单位特征值。我们进一步基于 Mohri 等人 (2018 (https://arxiv.org/html/2606.02657#bib.bib10)) 对混合过程的学习理论处理,同时显式保留最终界限中的所有混合常数,使得所得表达式保持可计算性。
### 2.3 变化检测与非平稳性下的学习
在变化环境下学习的研究已从多个角度展开,如变化检测、概念漂移和非平稳学习。$\mathcal{H}$ 散度由 Kifer 等人 (2004 (https://arxiv.org/html/2606.02657#bib.bib11)) 在早期工作中引入,用于在有限样本中检测分布变化。这一思想后来被推广到领域适应所需的对称比较设置,即 $\mathcal{H}\Delta\mathcal{H}$ 散度。
这些思想被用作我们分析的基础,但我们的重点是部署保证而非变化检测。定理 4.11 (https://arxiv.org/html/2606.02657#S4.Thmtheorem11) 背后的估计过程是将独立观测的散度估计论证推广到 $\beta$ 混合序列,遵循本文其余部分使用的相同有效样本量框架。
关于概念漂移和变化分布下的学习有更广泛的文献。大部分研究涉及对抗性或非结构化的非平稳性。然而,我们采取了不同的方法,考虑了 Hamilton (1989 (https://arxiv.org/html/2606.02657#bib.bib6)) 提出的结构化机制切换环境模型。这一结构至关重要,因为它使转移概率在理论中变得显式,并得到机制不匹配的闭式表达式。
### 2.4 极小化极大下界与不可约性
下界在理解理论惩罚项反映的是真实限制还是分析弱点方面起着重要作用。基于 Cam (1986 (https://arxiv.org/html/2606.02657#bib.bib12)) 发展并经两点法和 Fano 式论证形式化(Yu, 1997 (https://arxiv.org/html/2606.02657#bib.bib13))的经典极小化极大理论,我们构建了一个二元世界论证,表明机制不匹配会产生不可避免的部署代价。
该构造创建了两个环境,它们在纯平静状态训练下产生相同的训练分布,但导致不同的未来分布。这迫使任何学习器承担一个与 $p_{01} \cdot \frac12 d_{\mathcal{H}\Delta\mathcal{H}}(P_1, P_0)$ 成比例的额外最小风险,且与样本量无关。当来自两种机制的观测变得可用时,这一限制以 $\Theta(1/\sqrt{n_{\mathrm{eff}}})$ 的速率逐渐减弱,反映了从危机状态样本中获得额外信息。
### 2.5 机制切换模型与金融机器学习
Hamilton (1989 (https://arxiv.org/html/2606.02657#bib.bib6)) 引入的机制切换模型已广泛应用于描述在性质不同状态之间交替的环境。在金融应用中,机制切换已被反复证明会影响预测稳定性、波动性结构和下游模型性能,从而激发了对机制感知学习方法日益增长的兴趣(Zaremba and Cakici, 2024 (https://arxiv.org/html/2606.02657#bib.bib17); Staehr and others, 2024 (https://arxiv.org/html/2606.02657#bib.bib18))。
近期关于机制感知金融机器学习和机制转移动态因子模型的工作进一步表明,预测系统可以从显式建模潜在市场状态中受益(Suárez Cetrulo 等, 2024 (https://arxiv.org/html/2606.02657#bib.bib14); Shu 等, 2024 (https://arxiv.org/html/2606.02657#bib.bib15); Xiang 等, 2024 (https://arxiv.org/html/2606.02657#bib.bib16))。金融市场为经验验证提供了一个自然的环境,因为机制转换是可观测且被广泛记录的。该理论框架本身并不局限于金融领域。每当部署条件发生变化且未来分布与训练期间观测到的分布系统性不同时,就会出现底层问题。
## 3 问题设置与符号说明
我们研究当数据生成分布由潜在的两状态机制过程控制时的监督学习。该过程以一个马尔可夫链演化,其中训练数据的机制组成可能与部署(未来)时期的数据组成不同。
###### 定义 3.1 (机制过程).
令 $\{Z_t\}_{t \geq 1}$ 是 $\{0,1\}$ 上的一个两状态马尔可夫链,其中 $Z_t = 0$ 表示 *平静* 机制,$Z_t = 1$ 表示 *危机* 机制。该链由其转移矩阵 $P = \begin{pmatrix} p_{00} & p_{01} \\ p_{10} & p_{11} \end{pmatrix}$ 刻画,$p_{ij} = \mathbb{P}(Z_{t+1} = j \mid Z_t = i)$,行和为一,因此 $p_{00} = 1 - p_{01}$ 且 $p_{11} = 1 - p_{10}$。
###### 定义 3.2 (分布与风险).
令 $X$ 是特征空间,$Y$ 是标签空间。记 $P_0$(相应地 $P_1$)为平静(危机)机制下 $(x,y)$ 的分布。对于预测器 $f \in \mathcal{F}$ 和有界损失 $\ell: Y \times Y \to [0,1]$(例如 0/1 损失 $\ell(f(x), y) = \mathbf{1}[f(x) \neq y]$),在分布 $Q$ 下的风险为 $R_Q(f) = \mathbb{E}_{(x,y) \sim Q}[\ell(f(x), y)]$。记 $R_0(f), R_1(f)$ 分别为平静和危机风险。
###### 定义 3.3 (训练分布与未来分布).
令 $\pi \in [0,1]$ 为训练分布 $P_{\mathrm{mix}} = (1-\pi)P_0 + \pi P_1$ 的危机比例,因此 $R_{\mathrm{mix}}(f) = (1-\pi) R_0(f) + \pi R_1(f)$。以当前机制为平静状态为条件,一步前向(未来)分布为 $P_{\mathrm{future}} = p_{00} P_0 + p_{01} P_1$,其风险为 $R_{\mathrm{future}}(f) = p_{00} R_0(f) + p_{01} R_1(f)$。相似文章
有限理性、对冲与泛化
本文通过有限理性决策理论的视角研究学习中的泛化问题,其中学习者的响应规律在训练损失和样本依赖性之间产生权衡。作者表明这种权衡由 f-散度正则化器控制,并且泛化可以从学习者的对冲行为中得到验证。
通过相关噪声DP-SGD训练的Kolmogorov-Arnold网络的总体风险界
本文首次建立了使用小批量SGD和带有相关噪声的DP-SGD训练的Kolmogorov-Arnold网络的总体风险界,推动了在隐私敏感领域对KAN的理论理解。
使用子采样马尔可夫链蒙特卡罗的潜变量模型大规模不确定性量化
本文针对SGLD-Gibbs发展了标度极限理论,为大规模潜变量模型中实现有意义的不确定性量化提供原则性的超参数调优指导。
揭示SciML中的多模态模式:不同的失败模式与模态特定优化
本文识别了科学机器学习模型中一致的三模态结构,表明优化效果是模态特定的,并可能挑战传统的损失景观解释。它提出了一个模态感知的诊断框架,并在PINN、神经算子以及神经ODE上得到验证。
使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性
本文提出了一种分布对齐对抗性蒸馏(DisAAD)方法,该方法使用一个轻量级代理模型,仅以原始模型1%的规模来估计黑盒大语言模型的不确定性,实现了无需内部参数或多次采样的可靠量化。