具有随时有效保证的 AI 系统自适应审计

arXiv cs.AI 2026/05/11 04:00 论文

ai-auditing statistical-inference adaptive-testing anytime-valid generative-ai reliability

摘要

本文引入了一种统计框架，利用安全随时有效推断（SAVI）技术对 AI 系统进行自适应审计，旨在基于有限数据得出严谨的结论。文章提出了一种“通过赌博进行测试”的方法，以验证模型的鲁棒性，同时在自适应采样过程中控制第一类错误。

arXiv:2605.07002v1 公告类型：新论文摘要：刻画生成式 AI 系统故障模式的主要瓶颈在于标注和评估的成本与耗时。因此，自适应测试范式日益流行，即根据过去的结果灵活决定标注哪些案例以及标注的数量。虽然这一框架非常实用，但其极高的灵活性使得得出统计上严谨的结论变得困难，因为它违背了经典假设：观测数量通常有限（通常为 10 至 50 个案例），且有关采样和停止的决策是在数据收集过程中做出的，而非基于预先指定的规则。为了阐明从高度自适应的审计中可以得出何种统计推断，我们引入了一个假设检验框架，包含两个“对抗”视角：（i）原假设（模型方），主张不存在性能低于目标阈值的故障模式；与（ii）原假设（审计方），主张其拥有能够发现故障模式的采样策略。利用安全随时有效推断（SAVI），我们将审计方正式建模为进行“通过赌博进行测试”，这转化为用于检验这两个对抗原假设的同时 e-过程。此外，如果审计方足够强大，我们证明了这两个假设在渐近意义上是相互逆反的，即通过严格的审计确实可以认证 AI 系统具有全局鲁棒性。在实证研究中，我们表明所提出的测试程序保持了随时有效的第一类错误控制，优于预指定的测试方法，并且有时仅需 20 个观测值即可得出统计上严谨的结论。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:10

# 带有任意时刻有效保证的 AI 系统自适应审计
来源: https://arxiv.org/html/2605.07002
Siyu Zhou1∗ Patrick Vossler1∗ Venkatesh Sivaraman1 Yifan Mai2 Jean Feng1
1 加州大学旧金山分校 (University of California, San Francisco)
2 斯坦福大学 (Stanford University)

###### 摘要

描述生成式 AI 系统故障模式的主要瓶颈在于标注和评估的成本与时间。因此，自适应测试范式日益流行，即根据以往结果机会主义地决定标注哪些案例以及标注多少。虽然这一框架非常实用，但其极高的灵活性使得得出统计上严谨的结论变得困难，因为它违反了经典假设：观测数量通常有限（通常为 10 到 50 个案例），且关于采样和停止的决策是在数据收集过程中做出的，而不是基于预先指定的规则。为了描述可以从高度自适应的审计中得出何种统计推断，我们从两个“对决”的视角引入了一个假设检验框架：(i) 模型的零假设，断言不存在性能低于目标阈值的故障模式；与 (ii) 审计者的零假设，断言其拥有一种能发现故障模式的采样策略。利用安全任意时刻有效推断 (Safe Anytime-Valid Inference, SAVI)，我们将审计者形式化为进行“以赌注检验”(testing by betting)，这转化为用于检验对决零假设的同时 e-过程 (e-processes)。此外，如果审计者足够强大，我们证明这两个假设在渐近意义上互为逆否，即通过严格的审计确实可以证明 AI 系统具有全局鲁棒性。实证上，我们展示了所提出的测试程序能够保持任意时刻有效的 I 类错误控制，优于预定义的测试方法，并且有时仅需 20 个观测值即可得出统计上严谨的结论。

## 1 引言

已知 AI 系统在不同子群和输入类型上表现出各种泛化失败，这通常被称为“锯齿状前沿”(jagged frontier)。由于对 AI（智能体）输出的金标准评估往往耗时和/或昂贵 (Bandelet al., 2026)，常见的做法是构建小的、自适应选择的测试套件，以更有针对性地探测潜在的故障模式 (Husain and Shankar, 2026; Yan and Zhang, 2022)。自适应测试的实际吸引力在于，可以根据过去标注的结果实时决定要标注哪些样本以及标注多少；相关方法包括探测特定语言能力的清单式行为测试 (Ribeiroet al., 2020)；人机回环系统，其中从业者与模型生成的候选项一起迭代完善测试用例 (Ribeiro and Lundberg, 2022; Gaoet al., 2023)；用于审计算法公平性的可视化界面 (Cabreraet al., 2019)；以及对抗性生成，其中从业者试图通过红队演练 (red-teaming) 引发最坏情况行为 (Perezet al., 2022; Ganguliet al., 2022; Leeet al., 2023; Liet al., 2024)。这种做法甚至延伸到了 AI 之外，例如在最坏情况场景下对设备进行压力测试 (U.S. Food and Drug Administration, 2020)。

尽管应用广泛，自适应测试工作流的灵活性提出了一个基本的统计问题：少量自适应选择的观测值能否支持关于系统鲁棒性的严谨推断？标准统计推断通常既假设预先指定的采样方案，又假设样本量足够大以应用渐近理论。自适应测试违反了这两点：AI 从业者通常仅策划 10 到 50 个测试用例 (Husain and Shankar, 2026; Yan and Zhang, 2022)，且采样和停止策略是在数据收集过程中决定的，而不是基于预先指定的规则。传统的统计方法禁止此类测试方案，因为它们会显著膨胀 I 类错误；例如，如果一个人持续窥视 p 值，在零假设下测试拒绝的概率将被保证为 1 (Ramdas and Wang, 2025)。更根本的是，很难确切地制定到底在检验什么；例如，任意的采样实践不能用于测试模型的平均性能。因此，本工作的目标是 (i) 理解在高度灵活的测试方案下可以评估何种假设检验，以及 (ii) 构建具有有限样本保证且普遍有效的相应测试程序。

我们的提议始于将 AI 鲁棒性审计形式化为进行两个“对决”的假设检验，一个来自“模型”视角，另一个来自“审计者”视角（图 1(a)）。模型的零假设做出整体断言，即不存在故障模式，这意味着每个足够大的子群都满足最低性能阈值；拒绝模型的零假设意味着 AI 模型不具备鲁棒性。审计者的零假设断言他们拥有一种最终会发现故障模式的策略；拒绝审计者的零假设意味着通过了此项特定审计。虽然这两个零假设是专门构建以便在实践中可检验的，但它们通常并非完全互补。因此，它们无法执行得出 AI 系统是否鲁棒的二元结论的理想审计。但是，如果拥有一个足够强大的审计者，保证如果确实存在故障模式则能发现它，我们证明这两个零假设是互补的，从而对应于理想审计。通过这种形式化，我们澄清了实践中可以检验什么、理论上进行理想审计需要哪些额外假设，以及如何解释和执行审计。

然后，我们利用安全任意时刻有效推断 (SAVI) 方法，将审计者框定为一个“以赌注检验”程序，其中审计者被允许对任何其怀疑可能为故障模式的子群序列进行自适应下注，且在零假设下，没有必胜的下注策略（图 1(b, c)）(Grünwaldet al., 2024; Ramdas and Wang, 2025)。我们研究了将这些赌注转化为 e-过程的各种数学翻译——e-过程是序列设置下 SAVI 中 p 值的类比——可以将其解释为从审计者赌注中积累的财富，并且关键的是，在任意自适应采样和可选停止下提供有效的有限样本 I 类错误控制。我们首先从最简单的似然比选项开始，然后基于通用推断定义更具适应性的公式，最后引入基于变化点的公式。我们做出以下贡献：

1. 我们将 AI 审计形式化为在模型的零假设和审计者的零假设之间进行对决假设检验。我们证明在足够强大的审计策略下，这些假设渐近互补。
2. 我们引入了提供同时故障模式检测和审计认证的停止界的双重 e-过程，并具有 SAVI 保证。
3. 我们提供了实证结果，展示了自适应测试结合 e-过程程序确实可以提供 I 类错误控制，并且比预定义的审计策略更快得做出严谨结论，有时仅需 20 个观测值。

> 图 1：我们 (a) 将 AI 系统中故障模式的灵活审计形式化为对决假设检验，(b) 引入一个适合采样和停止策略在数据收集过程中决定而非预定义的“以赌注检验”框架，以及 (c) 将自适应赌注表示为具有安全任意时刻有效保证的双重 e-过程。

## 2 相关工作

**LLM 评估与自适应测试。** 许多自由格式的 LLM 输出评估成本高昂且耗时，例如，需要多次子智能体调用或需要专家手动标注。因此，除了对 LLM 的大规模基准测试努力 (Lianget al., 2023) 外，越来越多的研究专注于通过高度定向的自适应或主动测试来揭示 LLM 的故障模式，其中前几轮获得的结果告知下一步标注哪些观测值 (Ribeiro and Lundberg, 2022; Gaoet al., 2023; Liet al., 2024; Viveket al., 2024)。这些自适应测试方法通常涉及人机回环，有时辅以自动系统；在最极端的场景中，主动测试类似于红队演练，即构建最坏情况的测试场景 (Ganguliet al., 2022)。由于其资源/成本效率，自适应测试方法也被 AI 从业者广泛用于在目标领域评估 AI 流水线，常见建议是组装包含 10–50 个案例的多样化测试套件，以覆盖边缘情况和故障模式 (Yan, 2025; Husain and Shankar, 2026; Anthropic, 2026)。然而，目前尚无统计框架能够形式化在进行高度自适应和定向测试且采样方案未知时，统计推断的确切目标是什么，因为这违反了经典主动测试设置中要求预先指定采样方案的假设 (Berradaet al., 2025; Kuanget al., 2025)。本工作通过允许任意采样和停止方案提供了这样一个框架。

**E-值与 E-过程。** 由于经典 p 值和假设检验程序对数据生成机制施加了严格的约束和假设，最近的作品提出了一种基于 e-值的替代方法。E-值的属性源自（条件）期望而非概率分布，其优势在于在任何未知采样方案下提供具有有限样本 I 类错误控制的任意时刻有效测试 (Grünwaldet al., 2024; Ramdas and Wang, 2025)。此外，e-值已扩展到可选停止下的在线设置，用于序列测试的 e-过程和用于序列变化点检测的 e-检测器 (Shinet al., 2024)。这些框架可以视为“以赌注检验”，其中测试者在每次迭代时下注，且在零假设下，预期回报为（不大于）零 (Shafer, 2021)。虽然使用 e-值来改进 AI 系统生成的输出引起了越来越多的兴趣 (Sadhukaet al., 2025)，但目前尚无针对 AI 系统高度定向和自适应审计的 e-值框架，因为这些设置中的确切假设检验尚未形式化。

**子群与公平性测试。** 审计 AI 系统故障模式的问题属于测试和识别具有较大性能差异的子群的更广泛研究主题 (Chunget al., 2019; Eyubogluet al., 2023; Fenget al., 2023; Singhet al., 2023; Subbaswamyet al., 2024; Zenget al., 2026) 以及算法公平性 (Chouldechova and Roth, 2020; Mitchellet al., 2021)。然而，现有文献要么研究离线（批处理）设置，要么研究具有预指定采样或子群的主动标注 (Yan and Zhang, 2022; Hartmannet al., 2026)。我们的框架以其通用性为特点，允许在既未预指定子群也未预指定采样策略的主动测试下进行统计上严谨的推断。

## 3 方法

为了形式化 AI 系统鲁棒性的自适应审计，以下章节解决了两个主要技术挑战：(i) 哪些零假设可以可行地检验，以及 (ii) 哪些测试程序提供安全的任意时刻有效推断？由于篇幅限制，实施细节和详细证明请参阅附录。

**符号。** 令 $(\mathcal{X}, \mathcal{F}, \mu)$ 表示一个概率空间，其中输入空间为 $\mathcal{X}$，$\sigma$-代数为 $\mathcal{F}$，概率测度为 $\mu$。对于查询 $X \in \mathcal{X}$，令随机变量 $Y$ 表示 AI 系统响应的评分（例如，正确性），我们假设其在给定 $X$ 条件下是独立同分布的 (IID)。对于具有流行率 $\mu(S) > 0$ 的可测子集 $S \in \mathcal{F}$，AI 系统在子群 $S$ 上的平均评分表示为 $V(S) \coloneqq \mathbb{E}[Y \mid X \in S]$（我们假设较高评分更好）。对于固定的 $\epsilon \in (0, 1]$，令 $\mathcal{S}_\epsilon \coloneqq \{S \in \mathcal{F} : \mu(S) \geq \epsilon\}$ 表示所有质量至少为 $\epsilon$ 的子群。*故障模式* 是一个子群 $S \in \mathcal{S}_\epsilon$，在其上 $V(S)$ 低于目标阈值 $q$。对于任何正整数 $r$，$[r]$ 对应于序列 $\{1, 2, \dots, r\}$。

### 3.1 审计 AI 鲁棒性的对决假设检验

定义合适的假设检验框架需要克服自适应模型审计中的一个根本性不对称性：虽然识别出故障模式证明了缺乏鲁棒性，但通过定向测试套件并不能证明其鲁棒性。这既适用于单元测试的软件工程视角，也适用于统计假设检验的费舍尔 (Fisherian) 视角 (Christensen, 2005)。此外，由于自适应采样机会主义地寻找困难案例，它不能对典型估计量（如平均性能或特定子群性能）得出结论。我们通过将 AI 鲁棒性审计框定为进行两个“对决”假设检验来解决这一问题：*模型的零假设* 做出整体断言，即不存在故障模式，而 *审计者的零假设* 断言其特定的审计策略最终会发现故障模式。然后我们研究检验这两个零假设的条件...

具有随时有效保证的 AI 系统自适应审计

相似文章

I-SAFE：用于科学AI模型结构审计的Wasserstein一致性度量

从准确性到可审计性：金融AI系统中的确定性综述

MedSkillAudit：医学研究智能体技能领域专用审计框架

提升 AI 开发中的可验证性

LiSA：通过保守策略归纳实现终身安全适应

提交意见反馈