工业化预测驱动推断:用于可靠GenAI与智能体系统评估的GLIDE库

arXiv cs.AI 工具

摘要

GLIDE是一个开源Python库,统一了最先进的预测驱动推断方法,用于生成式AI和智能体系统的无偏评估,能够在保证有效不确定性估计的同时节省标注成本。

arXiv:2605.31278v1 公告类型:新 摘要:智能体系统的可靠评估需要具有有效不确定性估计的无偏估计,但标准实践在昂贵的人工标注和有偏的LLM评判代理之间权衡。预测驱动推断(PPI)将两者结合,提供具有有效置信区间的去偏估计,然而其各种方法仍分散在论文中,且仅有部分实现。我们推出了GLIDE,这是一个开源Python库,统一了最先进的PPI估计器(PPI++、分层PPI、先预测后去偏及其分层变体、主动统计推断)和采样器(均匀、分层、主动、成本最优),采用专用于均值估计的scipy风格API。GLIDE附带可复现的蒙特卡洛验证套件、基于经验的方法选择决策树,以及一个智能体评估案例研究,展示了在同等精度下大幅节省标注成本。GLIDE包可通过以下URL获取:https://github.com/EmertonData/glide
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:26

# 将预测驱动推断工业化:用于可靠生成式人工智能与智能体系统评估的 GLIDE 库
来源:https://arxiv.org/html/2605.31278

###### 摘要

对智能体系统的可靠评估需要无偏估计和有效的置信区间,但当前的标准实践要么依赖成本高昂的人工标注,要么依赖存在偏倚的“用大语言模型作评判”代理方法。预测驱动推断(PPI)将两者结合,能提供去偏估计和有效的置信区间。然而,其各种方法仍分散在不同论文中,且实现不完整。我们推出 GLIDE,这是一个开源 Python 库,它将最新的 PPI 估计器(PPI++、分层 PPI、先预测后去偏及其分层变体、主动统计推断)和采样器(均匀、分层、主动、成本最优)统一在一个适用于均值估计的 scipy 风格 API 下。GLIDE 附带一个可复现的蒙特卡洛验证套件、一个基于经验的决策树用于方法选择,以及一个智能体评估案例研究,表明在相同精度下能大幅节省标注量。GLIDE 包可从此网址获取:https://github.com/EmertonData/glide

**关键词:** 智能体、生成式人工智能、评估、PPI、LLM-as-Judge

## 1 引言

设想一个临床决策支持智能体,它检索指南、推理患者病历并提出治疗方案。衡量此类智能体行为是否正确,需要专家临床医生审查多步轨迹,而当前两种主流做法在此过程中均无法规模化。完全人工标注可靠但缓慢且昂贵;LLM-as-Judge 快速廉价但存在偏倚,尤其在知识密集、领域特定的任务中。与其在人类可靠性与代理规模性之间二选一,预测驱动推断(PPI)[Angelopoulos et al., 2023a (https://arxiv.org/html/2605.31278#bib.bib1), b (https://arxiv.org/html/2605.31278#bib.bib2)] 将二者结合,兼得两者优势:用大量廉价代理预测搭配少量人工标注,产生无偏估计和有效的置信区间。覆盖性质对代理而言是无条件的:代理越差,置信区间越宽,而非无效。

PPI 文献已迅速成熟,涌现出针对功效调优 [Angelopoulos et al., 2023b (https://arxiv.org/html/2605.31278#bib.bib2)]、分层总体 [Fisch et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib5); Fogliato et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib6)]、小样本自助法 [Kluger et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib13)]、主动采样 [Zrnic and Candès, 2024 (https://arxiv.org/html/2605.31278#bib.bib8); Gligorić et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib9)]、成本最优预算 [Angelopoulos et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib10)] 以及重新校准 [Ji et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib12)] 的扩展。然而,如 [Song et al., 2026 (https://arxiv.org/html/2605.31278#bib.bib3)] 所指出的,这些进展散落在不同论文中,符号异构且参考实现不完整。`ppi_py` 库 [Angelopoulos et al., 2023a (https://arxiv.org/html/2605.31278#bib.bib1)] 奠定了根基,但早于其中多种方法,且更强调对多种估计量(GLM、M-估计量)的通用性,而非对大多数用例所在的均值估计的深度支持。

智能体评估天然适合 PPI,原因有几方面:代理与真值之间的成本不对称性极为极端;智能体管道还表现出天然的异质性:不同工具、查询类型和子智能体的性能与代理质量差异显著,这催生了分层估计;现代评判器越来越多地提供按样本校准的不确定性,从而解锁了主动采样。现有库覆盖了部分领域,但没有任何单一接口能统一拟合的估计器与采样器家族,迫使实践者跨学术仓库拼凑方法。我们通过 GLIDE(生成标签推断与去偏引擎)填补这一空白,这是一个专注于均值估计的开源 Python 库。我们的贡献包括:

1.  一个统一的库,采用 scipy 风格 API,集成了多种 PPI 估计器:PPI++ [Angelopoulos et al., 2023b (https://arxiv.org/html/2605.31278#bib.bib2)]、分层 PPI++ [Fisch et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib5)]、先预测后去偏 [Kluger et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib13)] 及其分层变体、主动统计推断 [Zrnic and Candès, 2024 (https://arxiv.org/html/2605.31278#bib.bib8)];以及多种采样器:均匀、分层 [Fogliato et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib6)]、主动 [Zrnic and Candès, 2024 (https://arxiv.org/html/2605.31278#bib.bib8); Gligorić et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib9)]、成本最优 [Angelopoulos et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib10)],以及经典基线。
2.  一个可复现的验证套件:蒙特卡洛覆盖测试、对代理质量的敏感性分析,以及所有估计器的有效样本量基准。
3.  一个智能体评估案例研究,表明 GLIDE 能以显著更少的人工标注达到与传统采样相同的精度。

## 2 背景:预测驱动推断

#### 设置。

设 \((X,Y) \sim P\),其中 \(X\) 是要评估的输入或行为(在我们的案例中,是对话、大语言模型输出或智能体轨迹),\(Y \in \mathbb{R}\) 是相应的人工分配标签(例如,二元正确性指示符、毒性指示符或工具使用评分)。目标估计量是总体均值 \(\theta^\star = \mathbb{E}[Y]\),它编码了感兴趣的性能或风险度量。我们可以访问从 \(P\) 独立同分布抽取的两个数据集:一个小的 **标记** 集 \(\mathcal{L} = \{(X_i, Y_i, f(X_i))\}_{i=1}^n\) 和一个大的 **未标记** 集 \(\mathcal{U} = \{(X_j, f(X_j))\}_{j=1}^N\),其中 \(N \gg n\),\(f\) 是固定的代理(通常是 LLM-as-Judge),产生 \(Y\) 的预测。我们假设 \(f\) 在与 \(\mathcal{L} \cup \mathcal{U}\) 不重叠的数据上训练,因此其预测在两个集合上都是独立同分布的。

#### PPI 估计量。

经典的 PPI 均值估计量 [Angelopoulos et al., 2023a (https://arxiv.org/html/2605.31278#bib.bib1)] 使用标记集对代理均值进行去偏:

\[
\hat{\theta}^{\mathrm{PPI}} = \underbrace{\frac{1}{N} \sum_{j=1}^N f(X_j)}_{\text{代理均值在 }\mathcal{U} \text{ 上}} + \underbrace{\frac{1}{n} \sum_{i=1}^n \left(Y_i - f(X_i)\right)}_{\text{矫正器在 }\mathcal{L} \text{ 上}}.
\tag{1}
\]

第一项是廉价的代理均值;第二项是对代理偏倚的矫正。PPI++ [Angelopoulos et al., 2023b (https://arxiv.org/html/2605.31278#bib.bib2)] 引入一个调优参数 \(\lambda \in \mathbb{R}\):

\[
\hat{\theta}^{\mathrm{PPI++}}_{\lambda} = \frac{1}{n} \sum_{i=1}^n Y_i + \lambda \left( \frac{1}{N} \sum_{j=1}^N f(X_j) - \frac{1}{n} \sum_{i=1}^n f(X_i) \right),
\tag{2}
\]

当 \(\lambda=1\) 时恢复 (1),当 \(\lambda=0\) 时恢复经典标记均值。最优 \(\lambda^\star\) 是闭式解,能最小化渐近方差,保证 PPI++ 在极限情况下绝不比经典估计量差,即使代理无信息或对抗性。

#### 置信区间。

根据中心极限定理,\(\hat{\theta}^{\mathrm{PPI++}}_{\lambda}\) 是渐近正态的,通过插件方差估计量和正态分位数 \(z_{1-\alpha/2}\) 得到 \((1-\alpha)\) 置信区间。对于小 \(n\),中心极限近似会退化;基于自助法的构造提供了有限样本替代方案 [Kluger et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib13)]。

#### 扩展。

相同的模板(结合标记矫正与代理汇总)推广到评估相关的若干场景:分层总体,其中每层进行功效调优 [Fisch et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib5)];由逐样本代理不确定性驱动的非均匀采样,称为主动统计推断 (ASI) [Zrnic and Candès, 2024 (https://arxiv.org/html/2605.31278#bib.bib8); Gligorić et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib9)];针对小样本区间提出的先预测后去偏 (PTD) 方法,提供基于自助法的置信区间 [Kluger et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib13)];以及基于已知代理/标注成本比得出的成本感知采样概率 [Angelopoulos et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib10)]。近期综述可参见 [Song et al., 2026 (https://arxiv.org/html/2605.31278#bib.bib3); Ji et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib12)]。GLIDE 实现了所有这些扩展;我们在第 4 节中阐述相应的估计器和采样器。

#### 有效样本量。

任何 PPI 估计器的自然品质因数是其 **有效样本量**,定义为经典估计器为匹配相同置信区间宽度所需的完全标记样本数:

\[
n_{\mathrm{eff}} = n \cdot \frac{\widehat{\mathrm{Var}}(\bar{Y}_n)}{\widehat{\mathrm{Var}}(\hat{\theta}^{\mathrm{PPI++}}_{\lambda})}.
\tag{3}
\]

比率 \(n_{\mathrm{eff}}/n \geq 1\) 量化了代理的实际投资回报:它直接转化为人工审查工时或预算节省,并且是我们贯穿第 5 节和第 6 节报告的主要指标。

## 3 为什么智能体评估需要 PPI

第 2 节设定了抽象框架;我们现在论证智能体系统同时且异常程度地展现出四个属性,在这些属性下 PPI 最有价值。每个属性直接映射到近期文献中的一种方法,以及相应的 GLIDE 组件。

#### 1. 极端的成本不对称性。

评估一个智能体轨迹在质量上比评估单个大语言模型输出更昂贵。一个轨迹可能包括检索、工具调用、中间推理步骤和最终响应,所有这些都需要领域专家检查以确认正确性。在医疗、法律和金融场景中,每条轨迹的标注成本通常高达数美元,而 LLM-as-Judge 调用的成本仅为几美分。这种两到三个数量级的差距正是成本感知采样 [Angelopoulos et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib10)] 相关的场景,它根据代理/标注成本比和可用信号设定标注率。

#### 2. 自然的分层。

智能体管道通常沿着评估时已知的多个轴对观测值进行划分:调用的工具、处理的查询类型、涉及的子智能体以及咨询的检索来源。代理质量在这些层之间以重要的方式变化:一个能可靠评估算术推理的 LLM-as-Judge 可能在代码执行轨迹或特定领域的临床指南上表现不佳。分层 PPI [Fisch et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib5); Fogliato et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib6)] 在每一层内运行 PPI,并使用每层权重组合结果,隔离代理质量差异,产生比非分层估计量更窄的区间。

#### 3. 可用的代理不确定性。

现代评判器可以产生逐样本不确定性信号:口头自信度、对数概率、多代一致性或评判器集成。这些信号识别出代理最不可靠的轨迹,因而也是人工标注最具信息量的轨迹。主动统计推断 [Zrnic and Candès, 2024 (https://arxiv.org/html/2605.31278#bib.bib8); Gligorić et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib9)] 通过按与代理不确定性成比例的概率采样标注来利用这一点,将昂贵的专家工作集中在最具统计价值的地方。

#### 4. 后果攸关的部署场景。

关键系统(例如临床决策支持、金融咨询、受监管自动化、安全关键自主系统)也正是那些有偏的点估计且无有效不确定性会产生直接后果的系统。在这些场景中,无分布覆盖保证是部署要求。PPI 对代理的无条件有效性使其非常适合需要可审计性的智能体管道。

## 4 GLIDE 框架

### 4.1 三步分解

GLIDE 将评估组织为继承自经典调查理论的三个连续步骤:**采样**、**标注** 和 **估计**。从一个包含代理标签的大池中选择一小批预算内的观测(或轨迹)(采样);领域专家对所选子集生成真值标签(标注);将标记子集与代理预测结合,生成去偏的点估计和置信区间(估计)。采样和估计是统计和算法性的;而标注是不可避免地任务特定的,不在 GLIDE 的范围内。该库仅要求专家以机器可读形式(类别或数字)返回标签,其业务含义取决于上下文,但其统计处理则不然。

这种分解不仅仅是呈现方式的选择。它允许采样器和估计器独立开发、测试和贡献:提出新采样器的贡献者无需接触任何估计器,反之亦然。它也使实践者能够在第 2 节回顾的方法家族之间混合搭配,选择与其评估设置匹配的采样器以及与其统计机制匹配的估计器。

### 4.2 采样器

GLIDE 实现了覆盖第 3 节所述机制的四种采样器。
**UniformSampler** 从池中无放回均匀抽取 \(n\) 个观测。当没有辅助信号可用时,它是合适的基线。
**StratifiedSampler** 将 \(n\) 个观测分配到用户定义的层。支持两种分配规则:**比例分配** (\(n_h \propto N_h\)) 和 **内曼分配** (\(n_h \propto N_h \sigma_h\)),其中 \(\sigma_h\) 是代理标签的层内标准差 [Fogliato et al., 2024 (https://arxiv.org/html/2605.31278#bib.bib6)]。两种分配都会产生非整数值,GLIDE 通过哈密顿最大余数法进行四舍五入,以确保 \(\sum_h n_h = n\) 精确成立。
**ActiveSampler** 以与用户提供的代理不确定性分数成比例的伯努利概率独立抽取每个观测。比例常数经过校准,使得期望样本量等于预算 [Zrnic and Candès, 2024 (https://arxiv.org/html/2605.31278#bib.bib8); Gligorić et al., 2025 (https://arxiv.org/html/2605.31278#bib.bib9)]。由于抽取是独立的伯努利

相似文章

zai-org/GLM-5.1

Hugging Face Models Trending

GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。

用于监测和分类研究文献中数据使用的AI

arXiv cs.CL

本文提出了一种基于多任务GLiNER的框架,用于可扩展地监测研究文献中的数据集使用情况。该框架利用合成数据生成和基于LLM的重新验证,以解决提取、关系识别和使用分类中的挑战。

别赌博,用GAMBLe:AI驱动研究系统的分析框架

arXiv cs.AI

该论文介绍了GAMBLe,一个将AI驱动研究系统分解为生成器、评估器、发现机制和预算的框架,揭示了组件交互如何塑造优化景观。在NP困难问题上的实验表明,没有普遍最佳的配置,强调了谨慎选择组件的必要性。

Dageno AI

Product Hunt

<p>成为 7+ 主流大模型共同推荐的首选品牌</p><p><a href="https://www.producthunt.com/products/agent-powered-geo-by-dageno?utm_campaign=producthunt-atom-posts-feed&utm_medium=rss-feed&utm_source=producthunt-atom-posts-feed">讨论</a> | <a href="https://www.producthunt.com/r/p/1123690?app_id=339">链接</a></p>

MIRAGE:具备隐式推理与生成式世界模型的移动智能体

arXiv cs.AI

MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。