从预测排行榜到部署决策:一种失效关闭认证协议

arXiv cs.LG 论文

摘要

本文介绍了一种失效关闭认证协议,用于确定在给定的固定决策接口和部署效用下,何时可以将预测排行榜的优胜者可靠地用作可部署的顶级建议。它提出了一种锁定原生审计,通过阻止明显的预测/部署优胜者反转来防止过度声明。

arXiv:2606.24996v1 公告类型:新提交 摘要:预测排行榜根据预测质量对模型进行排名,但其获胜者常被视为可部署的顶级建议。当预测通过固定的决策接口(如警报阈值、top-k预算或切换成本策略)传递时,这种解读可能会失败。我们研究在何时,对于指定的接口和部署效用,可以将预测侧的获胜者认证为可部署行动。我们引入了一种失效关闭认证协议,其关卡是对于强主张(即由摩擦引起的、非平局、有统计支持且反复出现的部署侧反转)的充分证据条件。Traffic-Hourly提供了一个认证锚点:在零摩擦时获胜者一致,但正切换摩擦使得预测获胜者成为部署次优。锁定原生审计测试过度声明:在22个验证候选者和362个全网格单元中,有155个明显的预测/部署获胜者反转在认证前被阻止。贡献不在于新的预测器、指标或通用效用,而在于一种保守的协议,用于决定何时应将预测排行榜获胜者视为可部署的顶级建议。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:10

# 1 引言
来源:https://arxiv.org/html/2606.24996
从预测排行榜到部署决策:一种失效关闭认证协议

Geumyoung Kim 忠北大学 [email protected]

摘要

预测排行榜根据预测质量对模型进行排名,但其胜者常被解读为可立即部署的Top-1建议。然而,当预测结果通过固定的决策接口(如预警阈值、Top-k预算或切换成本策略)传递时,这种解读可能失效。我们研究在何种条件下,预测侧的胜者可以被认证为针对特定接口和部署效用具有可操作性的部署方案。我们引入了一种失效关闭认证协议,其门控条件是强声明的充分证据条件:由摩擦引起、非平局、统计支持且可重复的部署侧反转。Traffic-Hourly提供了一个认证锚点:在零摩擦下胜者一致,但正向切换摩擦使预测胜者成为部署次优。一项锁定原生审计测试了过度宣称:在22个验证候选者和362个全网格单元中,155个明显的预测/部署胜者反转在认证前被阻止。本文的贡献并非新的预测器、指标或通用效用函数,而是一种保守的协议,用于决定何时应将预测排行榜胜者解读为可部署的Top-1建议。

![[无标题图片]](https://arxiv.org/html/2606.24996v1/assets/github-mark.png)GitHub: github.com/GamGomYang/forecast-actionability (https://github.com/GamGomYang/forecast-actionability)

预测排行榜通常旨在回答一个预测性问题:哪个模型在选定的准确率、校准或概率评分指标下预测效果最好?然而在实践中,排行榜胜者往往被更强烈地使用,仿佛它也是下游部署最安全的模型选择建议。一旦预测结果通过固定的决策接口传递,这种更强的解读就可能失效。告警系统可能在预测风险超过阈值时发出警告,在固定预算下选择Top-k告警,或惩罚频繁的动作切换。一个高度反应式的预测器可以提高单步预测精度,但在应用接口后可能引发昂贵的切换。在这种情况下,预测侧的胜者不一定是部署侧的胜者。

参考图注图1:预测排行榜的失效关闭认证。(A) 预测侧胜者只有在经过固定接口、部署效用评估和预先指定的认证门控条件后,才能成为部署可操作的Top-1建议。(B) 在锁定原生审计中,155个明显的预测/部署胜者反转通过门控条件,零个获得认证提升,展示了过度宣称的预防。本文提出一个审计问题:预测排行榜胜者在何种条件下有足够支持成为部署可操作的Top-1建议?该协议不替换预测指标、不重新训练预测器、也不提出通用效用函数。它针对指定的排行榜单元、固定的预测到决策接口以及部署效用进行审计。*预测侧胜者*是按预测指标排名第一的模型,而*部署侧胜者*是在对每个预测器应用相同接口后,具有最高部署效用的模型。形式上,对于预测器 \(m\),令 \(s_m\) 表示其预测侧得分,\(u_m(\kappa)\) 表示在摩擦水平 \(\kappa\) 下应用固定接口 \(g\) 后获得的部署效用。预测侧胜者是 \(m_F = \arg\min_m s_m\)(预测损失),而部署侧胜者是 \(m_D(\kappa) = \arg\max_m u_m(\kappa)\)。只有在证据支持将 \(m_F\) 解读为在该指定接口下可靠的Top-1部署建议时,该案例才具有部署可操作性。

认证协议是失效关闭的:模糊案例不会被提升为标题式失败。如果零摩擦基线不一致,如果在平局审计下胜者发生变化,或者如果部署不足缺乏保守的不确定性支持,则该行被引导至诊断或需审查结果,而非被认证为部署面向的选择失败。每个认证门控条件对应一个明显预测/部署胜者不匹配的竞争性解释:目标不匹配、无正向摩擦反转、平局不稳定、统计不确定性、或重复性/支持不足。报告卡是面向用户的输出;失效关闭认证协议是确定哪些行(如果有的话)可以被提升的基于证据的规则。因此,评估的对象不是独立的预测模型、数据集或评分规则,而是一个排行榜单元以及一个指定的预测到决策接口和一个预先指定的关于其Top-1预测胜者是否具有部署可操作性的决策。附录A(https://arxiv.org/html/2606.24996#A1)给出了完整的标签词汇表和首个失败门控规则。

贡献有三方面:(i) 将预测排行榜的部署面向解读问题形式化,即预测质量排名第一的模型不应在固定接口后自动被视为最佳部署推荐;(ii) 一种失效关闭认证协议,将认证的部署面向选择失败与目标不匹配、平局敏感性、不确定性限制、低支持证据和无检测失败案例区分开;(iii) 协议的双方经验证明,其中Traffic-Hourly在所有门控通过时认证了一个清晰的失败,而锁定原生审计在证据不足时阻止了155个明显的预测/部署胜者反转的提升。

## 2 结果:认证协议的两个角色

### 2.1 证据角色:锚点认证 vs. 过度宣称预防

我们在两个不同的证据角色中使用失效关闭认证协议。锚点套件询问在所需假设成立时,门控条件是否能认证一个清晰的部署面向选择失败。锁定原生审计则询问互补问题:当假设不成立时,明显的预测/部署胜者不匹配是否被阻止成为标题式声明。

这些角色在解释之前就已固定。Traffic-Hourly是主要的认证锚点;Event-micro是附带条件的支持;锁定原生审计是一项过度宣称预防审计;NOAA是冻结的附录确认;Inventory是有限的操作性检查。这种分离防止混合案例被升级为主要正面证据。

表1:清晰的锚点案例:在正摩擦下,Traffic-Hourly通过了所有认证门控条件。该表报告了在评估固定接口后,预测侧胜者是否变为部署次优。- *注*。平均短差是选择预测侧胜者而非部署侧胜者所导致的配对部署效用损失。次优种子计数了预测侧胜者为部署次优的种子数。缩写:R-short = 反应式短,R-sharp = 反应式尖锐,L-smooth = 滞后平滑器,Calib. = 校准。Traffic系列的扫描见附录表A5(https://arxiv.org/html/2606.24996#A3.T5)。

### 2.2 清晰锚点:Traffic-Hourly可被认证

Traffic-Hourly是一个预测原生告警选择设置:预测器每小时产生风险分数,固定预算接口选择Top-k告警,部署效用奖励正确的告警分配,同时通过摩擦参数 \(\kappa\) 惩罚动作切换。表1(https://arxiv.org/html/2606.24996#S2.T1)从更广泛的原生审计中分离出清晰的锚点案例。在Traffic-Hourly中,预测和部署胜者在零摩擦时一致;在正切换摩擦下,Reactive short 仍然是预测最佳,但部署胜者转向 Lagged smoother 或 Calibrated/Lagged 替代品。在代表性的 Top-k, \(k=249\) 行中,在 \(\kappa=0.5\) 和 \(\kappa=1.0\) 下,预测选择的模型在100/100个种子中均为部署次优。附录表A5(https://arxiv.org/html/2606.24996#A3.T5)报告了在五个Top-k预算和两个相对排名变体上的族内广度检查。

其机制是刻意透明的。反应式模型赢得预测侧分数,因为它跟踪短期变化,但同样的反应性在应用固定接口后引发了昂贵的切换。一旦 \(\kappa\) 为正,更平滑的替代品即使未赢得预测侧排行榜,也可能成为部署最优。

Event-micro 被保留为附带条件的支持,而非第二个主要锚点:其正摩擦行是稳定的,但其近零行不如 Traffic-Hourly 清晰。因此它支持锚点模式,但不升级为主要证据。

我们将 Traffic-Hourly 用作机制性锚点,而非流行率估计。因此,Traffic-Hourly 被认证协议认证为部署面向的Top-1选择失败:零摩擦行排除了纯粹的目标不匹配,正摩擦行满足反转、稳定性、不确定性和支持要求。附录检查涵盖了 Traffic-Hourly 预算、相对排名变体、滚动分割代理和 \(\epsilon\) 平局审计。Inventory 仍作为有限的操作性验证检查,而非第三个主要锚点。

### 2.3 锁定原生审计:明显的反转不够

预先指定的原生审计测试相反的风险:如果天真地报告,明显的预测/部署胜者反转是否会在没有足够证据的情况下被提升。这里“原生”指审计使用的锁定真实数据候选网格(而非仅附录中的 NOAA 检查);“锁定”指在分配报告卡标签之前,候选集和门控规则已固定。该审计故意不用于估计部署面向选择失败发生的频率;它测试认证协议在认证假设不满足时是否抵制提升天真的胜者不匹配。认证协议应用于22个已验证的真实数据原生候选者和362个原生全网格单元。在这些单元中,155个显示了明显的预测/部署胜者反转。因此,该审计对过度宣称是敌对的,而非有利于提升:它从许多明显的预测/部署胜者不匹配开始,问是否有任何能够满足对正面锚点施加的相同证据要求。

因此,原生审计提供了一个过度宣称预防审计,而非流行率估计:除非所有失效关闭门控条件都满足,否则明显的预测/部署胜者反转不会被提升。零摩擦/目标门控阻断了96行,平局稳定性门控阻断了2行,Bootstrap-CI门控阻断了32行,重复性/支持门控阻断了剩余的25行。在锁定原生审计中,没有明显的预测/部署胜者反转通过所有门控。因此,审计在155个明显的预测/部署胜者反转中产生了零个认证提升和零个在证据不足情况下提升的失败。在零摩擦/目标门控之后,59行作为需审查状态保留,而非认证证据。

这是预期的保守行为。锁定审计并不证明部署风险不存在;而是表明仅凭胜者不匹配不足以构成部署面向选择失败声明的证据。模糊的行仍作为需审查诊断可见,而非被转换为标题式失败。图1(https://arxiv.org/html/2606.24996#S1.F1)B 可视化了门控流程,表2(https://arxiv.org/html/2606.24996#S2.T2)报告了精确的分类账。

表2:锁定原生过度宣称预防分类账。没有明显的反转通过所有门控。门控/结果 | 剩余 | 路由
-- | -- | --
所有原生单元 | 362 | –
明显反转筛选 | 155 | 207
零摩擦/目标门控 | 59 | 96
平局稳定性门控 | 57 | 2
Bootstrap-CI门控 | 25 | 32
重复性/支持门控 | 0 | 25
最终认证提升 | 0 | –
保留为需审查的行 | 59 | –

### 2.4 能力和虚假提升诊断

一个认证能力诊断解释了为何低支持的原生行被引导至需审查:当已认证的 Traffic-Hourly 和 Event-micro 锚点被降采样时,在 \(n \leq 20\) 时没有行被提升,仅在大约 \(n=30\) 或以上时才出现提升。

该诊断解释了为何支持门控并非装饰性限制。在相同的提升逻辑下,即使已认证的锚点行在降采样到非常小的支持时也不会被提升。只有当有效支持足够大,使得方向性和重复性检查变得可靠时,提升才出现。因此,将低支持的原生行引导至需审查是刻意的失效关闭行为,而非检测失败。

附录D.1(https://arxiv.org/html/2606.24996#A4.SS1)报告了阴性对照审计:400个随机化的胜者分配产生了许多明显的预测/部署胜者反转,但没有一次运行清除了门控条件。

最后,冻结的 NOAA 检查被保留为附录确认:它支持高摩擦模式,但在较低摩擦下仍混合,因此不升级为主要证据(附录E.1(https://arxiv.org/html/2606.24996#A5.SS1))。

这些诊断支持以下解释:锁定原生审计中的非认证不仅仅是未能找到正面案例。相同的规则在支持过小时也拒绝提升已知的正面锚点,并且尽管存在许多明显的预测/部署胜者反转,也拒绝提升随机化的阴性对照。

### 2.5 为何认证门控并非任意

认证门控并非旨在作为所有可能部署失败的必要条件。它们是提升一个强论文面向声明的充分条件:由摩擦引起、非平局、统计支持且可重复的部署侧反转。这一区分对于失效关闭设计至关重要。未通过某个门控的行不会被声明为安全;它会被引导至第一个适用的诊断标签。

这些门控按顺序排列,以消除对明显预测/部署胜者不匹配的竞争性解释。零摩擦门控移除了纯粹的目标不匹配:如果预测侧胜者和部署侧胜者在 \(\kappa=0\) 时已经不一致,那么正摩擦下的不匹配就不能归因于部署摩擦本身。正摩擦反转门控随后检查预测侧胜者是否在应用固定接口和摩擦后实际上变为部署次优。平局稳定性门控移除了报告胜者身份是 \(\epsilon\) 级排名歧义人为产物的情况。保守置信区间门控移除了配对部署效用短差在统计上不支持的情况。最后,重复性/支持门控移除了未以预先指定支持重复出现的孤立种子、分割或网格伪影。

这一理念是决策理论性的,而非基于模型训练。预测-然后-优化和决策聚焦学习表明,预测质量与下游决策质量不必一致,但这些方法通常修改训练目标或优化下游问题。我们的设置是事后性的:预测器、排行榜分数、预测到决策接口、部署效用和认证协议都是固定的,我们仅询问是否应将预测侧胜者解读为部署可操作的Top-1建议。

相似文章

超越静态排行榜:LLM智能体评估的预测有效性

Hugging Face Daily Papers

本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。

针对CTF4Science Lorenz挑战的度量感知混合预测

arXiv cs.LG

本文描述了一种针对CTF4Science Lorenz挑战的度量感知混合预测系统,该系统结合了神经去噪器、ODE拟合和直方图尾部分布替代,以优化九个任务对中的不同度量,在公开排行榜上取得了83.85529分的成绩。

ForecastBench-Sim:模拟世界预测基准

arXiv cs.AI

介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。