渐进自主性作为偏好学习：智能体工具使用中信任校准的形式化

arXiv cs.AI 2026/05/20 04:00 论文

摘要

本文将智能体工具使用中的信任校准形式化为一个偏好学习问题，利用高斯过程和贝叶斯优化来决定AI代理的行为何时应自主执行或需要人类批准。

arXiv:2605.19151v1 公告类型：新摘要：我们将智能体工具使用中的信任校准（决定自动代理的提议动作何时可以自主执行，何时需要人类批准）形式化为一个偏好学习问题。策略网关维持一个关于潜在的人类风险容忍度函数的高斯过程后验，该后验通过二元批准/拒绝反馈的probit似然进行观测，并在批准结果最不确定时上报给人类。我们证明这在结构上是优先贝叶斯优化的一个实例，继承了其推理机制（近似高斯过程分类）和样本效率论点（针对不确定性的查询），但在目标上有所不同：将动作空间分类为允许/阻止/询问区域，而不是优化设计。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:28

# 渐进式自主作为偏好学习：面向智能体工具使用的信任校准形式化
来源：https://arxiv.org/html/2605.19151
\(2026年3月4日\)

###### 摘要

我们将智能体工具使用中的信任校准问题——即决定自动化智能体的提议操作是自主执行还是需要人工批准——形式化为一个偏好学习问题。策略网关维护一个高斯过程后验，该后验作用于一个隐式的人类风险容忍度函数，通过基于二元批准/拒绝反馈的probit似然进行观测，并在批准结果最不确定的地方升级给人类。我们表明这结构上是偏好贝叶斯优化的一个实例，继承了其推理机制（近似高斯过程分类）和样本效率论证（不确定性导向查询），但在目标上有所不同：将行动空间分类为允许/阻止/询问区域，而不是优化一个设计方案。

## 1 背景与相关工作

决定将多少自主权委托给自动化系统是一个经典的人机交互控制问题；其技术核心是从稀疏的二元反馈中恢复人类的潜在可接受性函数，即*偏好学习*。Chu和Ghahramani [6 (https://arxiv.org/html/2605.19151#bib.bib1)] 引入了高斯过程偏好学习，在潜在效用上放置高斯过程先验，并通过probit似然将观察到的人类选择与其关联起来。我们采用的就是这种结构，专门针对一元批准/拒绝反馈。相同的潜在效用加probit模型也支撑了偏好驱动的序贯决策：González等人 [8 (https://arxiv.org/html/2605.19151#bib.bib2)] 形式化了*偏好贝叶斯优化*（PBO），将GP偏好学习嵌入到贝叶斯优化 [3 (https://arxiv.org/html/2605.19151#bib.bib3), 16 (https://arxiv.org/html/2605.19151#bib.bib8)] 的查询循环中。我们的策略网关结构上是该框架的一个实例，仅在目标上有所不同（对行动空间进行分类而非优化设计方案），如表1 (https://arxiv.org/html/2605.19151#S8.T1) 所示。

推理机制是经典的GP分类：GP先验、非高斯probit似然、以及通过拉普拉斯方法或期望传播 [10 (https://arxiv.org/html/2605.19151#bib.bib5)] 近似得到的解析难解后验，这些由Rasmussen和Williams [13 (https://arxiv.org/html/2605.19151#bib.bib4)] 全面阐述。将人类查询预算视为稀缺资源，使得“询问”区域成为一种主动学习意义上的*获取*规则 [15 (https://arxiv.org/html/2605.19151#bib.bib9)] 和贝叶斯优化 [16 (https://arxiv.org/html/2605.19151#bib.bib8)]：干预发生在预期关于允许/阻止边界的信息量最大的地方。最后，风险容忍度漂移是一个非平稳性问题；我们通过一种时间衰减核分量来建模，其精神源于非平稳协方差函数 [12 (https://arxiv.org/html/2605.19151#bib.bib6)]，对于突变，则采用贝叶斯在线变化点检测 [1 (https://arxiv.org/html/2605.19151#bib.bib7)]。

这种渐进式自主观点在自动化信任文献中有深厚根基：Lee和See [9 (https://arxiv.org/html/2605.19151#bib.bib10)] 将适当的依赖描述为信任与实际系统可信度的一致性；de Visser等人 [7 (https://arxiv.org/html/2605.19151#bib.bib11)] 将其扩展到人机团队中的*纵向*信任校准，这正是我们的时间衰减核（第6节）试图捕捉的动态。对于大语言模型智能体，这个问题再次凸显，渐进式自主已与原始能力并列成为明确的部署轴 [11 (https://arxiv.org/html/2605.19151#bib.bib12)]。最近的工作梳理了日益增强的智能体系统的风险 [5 (https://arxiv.org/html/2605.19151#bib.bib13)]，主张对已部署智能体进行可见性和监督机制 [4 (https://arxiv.org/html/2605.19151#bib.bib14)]，并提出了治理实践，其中人类保留对后果性行动的批准权 [17 (https://arxiv.org/html/2605.19151#bib.bib15)]。这些论述大多是定性和分类性的：它们论证了*为什么*渐进式自主重要以及*什么*应该被治理，但将升级策略本身留作固定的、手工指定的层级。我们的贡献是缺失的机制：一种学习规则，使得自动批准/升级边界能从人类反馈中自适应，而非手工设定。

## 2 设定

在每个决策时刻 \(t=1,2,\ldots\)，策略网关观察到一个提议的智能体行动 \(a_t \in \mathcal{A}\) 和一个执行上下文 \(c_t \in \mathcal{C}\)，其中：

\[
\begin{aligned}
a_t &= (\texttt{tool\_name},\; \texttt{args},\; \texttt{target\_resource}), \tag{1}\\
c_t &= (\texttt{repo\_state},\; \texttt{task\_desc},\; \texttt{session\_history}). \tag{2}
\end{aligned}
\]

人类监督员提供二元反馈 \(y_t \in \{0,1\}\)（拒绝/批准）。我们将 \(x_t \coloneqq (a_t, c_t) \in \mathcal{X} = \mathcal{A} \times \mathcal{C}\) 记为联合输入。

## 3 隐式风险容忍度

###### 定义1（风险容忍度函数）。

存在一个隐式函数 \(f: \mathcal{X} \to \mathbb{R}\) 编码人类的风险容忍度，使得批准概率遵循一个probit观测模型：

\[
\Pr(y=1 \mid x) = \Phi\!\bigl(f(x)\bigr), \tag{3}
\]

其中 \(\Phi\) 是标准正态分布累积分布函数。

## 4 高斯过程先验与后验

在 \(f\) 上放置GP先验 [13 (https://arxiv.org/html/2605.19151#bib.bib4)]：

\[
f \sim \mathcal{GP}\!\bigl(\mu_0,\; k(x,x')\bigr). \tag{4}
\]

核 \(k\) 在输入结构上分解。一个自然的选择是乘积核：

\[
k(x,x') = k_{\text{tool}}(a,a') \cdot k_{\text{ctx}}(c,c') \cdot k_{\text{time}}(t,t'), \tag{5}
\]

其中：
- \(k_{\text{tool}}\) 编码行动之间的相似性（例如，共享工具名称、重叠参数模式、相同可逆性类别），
- \(k_{\text{ctx}}\) 捕获上下文相似性（相同仓库、文件类型、任务类别），
- \(k_{\text{time}}\) 处理非平稳性（见第6节）。

在观测到 \(\mathcal{D}_N = \{(x_t, y_t)\}_{t=1}^N\) 后，后验为：

\[
p(f \mid \mathcal{D}_N) \propto \mathcal{GP}(\mu_0, k) \cdot \prod_{t=1}^N \Phi\!\bigl(f(x_t)\bigr)^{y_t} \bigl(1 - \Phi\!\bigl(f(x_t)\bigr)\bigr)^{1 - y_t}. \tag{6}
\]

由于非高斯似然，这是解析难解的。近似推理通过拉普拉斯近似 [13 (https://arxiv.org/html/2605.19151#bib.bib4)] 或期望传播 [10 (https://arxiv.org/html/2605.19151#bib.bib5)] 进行，与PBO使用的机制相同。

## 5 策略网关决策规则

给定新点 \(x_*\) 处的后验预测分布：

\[
\hat{p}(x_*) \coloneqq \mathbb{E}_{f \mid \mathcal{D}_N} \!\bigl[\Phi(f(x_*))\bigr], \tag{7}
\]

网关应用三级决策：

\[
\text{decision}(x_*) = \begin{cases}
\texttt{allow} & \text{如果 } \hat{p}(x_*) > \tau_{\text{high}}, \\[3.0pt]
\texttt{block} & \text{如果 } \hat{p}(x_*) < \tau_{\text{low}}, \\[3.0pt]
\texttt{ask} & \text{否则}.
\end{cases} \tag{8}
\]

“询问”区域 \([\tau_{\text{low}}, \tau_{\text{high}}]\) 扮演着*获取函数* [16 (https://arxiv.org/html/2605.19151#bib.bib8), 15 (https://arxiv.org/html/2605.19151#bib.bib9)] 的角色：系统恰好在其对批准结果最不确定的地方查询人类，从而最大化每次人类干预的信息价值期望。

## 6 非平稳性

人类的风险容忍度会漂移：项目初期监督员谨慎；随着对熟悉模式积累信任，他们变得宽容。通过一个时间衰减的核分量来建模：

\[
k_{\text{time}}(t,t') = \exp\!\Bigl(-\frac{|t - t'|}{\lambda}\Bigr), \tag{9}
\]

其中 \(\lambda > 0\) 是控制遗忘率的长尺度。这使最近的批准/拒绝信号权重更大，是“智能体随时间赢得信任”这一直觉的原则性类比。

为了计算效率，可以通过最近 \(W\) 个观测的滑动窗口，或在监督员行为突变（例如，迁移到新代码库）时通过在线变化点检测来实现等效效果。

## 7 相关泛化

与朴素的情境赌博机（将每个 \((a,c)\) 独立处理）相比，一个关键优势是通过核实现的*相关泛化*。具体来说：

- 批准 `write_file` 到 `/workspace/src/` 会向 `write_file` 到 `/workspace/test/` 传递证据，因为 \(k_{\text{tool}}\) 和 \(k_{\text{ctx}}\) 赋予高相似性。
- 拒绝带有 `DROP` 参数的 `execute_sql` 会将谨慎态度传播到带有 `TRUNCATE` 的 `execute_sql`，而无需人类逐个拒绝每个变体。
- 没有交互历史的新工具继承先验 \(\mu_0\)，这映射到 `ask`，即故障安全默认值。

## 8 与PBO的联系

信任校准问题与偏好贝叶斯优化 [8 (https://arxiv.org/html/2605.19151#bib.bib2)] 之间的映射总结在表1 (https://arxiv.org/html/2605.19151#S8.T1) 中。

| 组件 | PBO（优化） | 信任校准（策略） |
|------|-------------|-------------------|
| 输入空间 \(\mathcal{X}\) | 设计参数 | (行动, 上下文) 对 |
| 隐函数 \(f\) | 待最大化目标 | 待学习风险容忍度 |
| 人类反馈 | 成对偏好 \(x_i \succ x_j\) | 一元批准/拒绝 |
| 观测模型 | \(\Phi(f(x_i) - f(x_j))\) | \(\Phi(f(x))\) |
| 获取 | 待评估的下一个查询 | 待升级的下一个行动 |
| 目标 | 找到 \(x^* = \arg\max f\) | 学习允许/阻止边界 |
表1：PBO与信任校准之间的结构对应。

“偏好”方面是字面意义上的：人类表达的是关于智能体应被允许做什么的偏好。相同的数学机制（GP先验、probit似然、近似后验推理）直接迁移。区别在于目标：PBO旨在*优化*，而信任校准旨在以最少的人类查询将行动空间*分类*为允许/阻止/询问区域。

## 9 数据集与评估

经验性验证网关需要将提议的智能体行动与人类批准/拒绝判断配对的数据。最接近的公共资源是 R-Judge [18 (https://arxiv.org/html/2605.19151#bib.bib16)]，它提供了多轮智能体交互记录，并由人类以二元安全/不安全标签在多种风险场景下进行标注；它是冷启动先验 \(\mu_0\) 以及校准 \(k_{\text{tool}}\) 和 \(k_{\text{ctx}}\) 的自然来源。更广泛的智能体安全基准如 Agent-SafetyBench [19 (https://arxiv.org/html/2605.19151#bib.bib18)] 和 ToolEmu [14 (https://arxiv.org/html/2605.19151#bib.bib17)] 扩大了行动和上下文的覆盖范围，但其风险标签由自动评判器而非逐行动的人类批准产生，因此更适合压力测试学习到的边界，而非拟合 \(f\) 本身。

一个结构性差距仍然存在：没有公开数据集捕获非平稳性模型（第6节）所假设的*纵向、逐监督员*信号。现有语料库提供一次性、聚合的注释，并未跟踪个体监督员在项目过程中的风险容忍度漂移。因此，验证时间衰减核需要要么进行受控用户研究，要么使用故意漂移的合成标注器进行模拟，并以 R-Judge 作为静态初始化器。我们认为这是当前可用数据的内在局限性，而非模型的缺陷。

## 10 模拟研究

因此，我们在一个受控模拟中检验该公式，其真实预言机实例化了定义1和第6节的漂移：这是偏好贝叶斯优化的标准评估协议，其中潜在偏好函数是合成构建的，以便能够针对已知目标测量恢复、校准和查询效率。行动空间包括18个具有可解释决策时刻风险属性（可逆性、基础敏感性、破坏半径、破坏性参数标志）的智能体工具，8个目标资源敏感性层级，以及7个任务上下文。预言机潜在函数包括一个静态行动可接受性项，加上一个饱和的累积信任项（第6节），并在 \(t=750\) 处有一个突变变化点，外加一个三元安全否决权（不可逆 *且* 敏感 *且* 低信任）；批准按 \(y \sim \mathrm{Bernoulli}(\Phi(f^*))\) 抽取。网关是Rasmussen和Williams [13 (https://arxiv.org/html/2605.19151#bib.bib4)] 的自包含拉普拉斯GP-probit模型，采用第4节的乘积核。核观察到行动和上下文风险属性，但从未观察到随时间变化的否决权或漂移，它必须通过 \(k_{\text{time}}\) 从反馈中恢复这些。我们处理一个包含 \(N=1500\) 个决策点的流，重复6个种子，以序贯方式（每个决策在步骤之前没有任何标签时即被评分），阶段包括学习 \([0,560)\)，验证 \([560,1050)\)（在此阶段 \((\tau_{\text{low}}, \tau_{\text{high}})\) 在收紧的错误允许上限下调整一次），以及冻结策略测试 \([1050,1500)\)（模型在此阶段保持在线自适应）。可重现代码、完整报告及所有图表均在 `experiment/` 目录下提供。

### 推理与相关泛化成立。

表2 (https://arxiv.org/html/2605.19151#S10.T2) 报告了验证阶段（对所学内容的公平测量，变化点在其内部）和变化点后测试阶段，与一个将每个工具独立学习的无相关基线进行比较。GP网关在验证阶段以97.3%的准确率和2.4%的错误允许率自动决策了68%的行动，在变化点后准确率达到99.7%；独立基线几乎自动决策所有内容，但准确率仅为69–71%，证实了是核而非三级规则承载了质量。相关泛化是决定性的：在一个*从未*被查询过的测试目录上的 `write_file` 操作上，GP仅通过与类似工具和目标的核外推，就能以98.7% ± 2.9 的概率恢复正确决策，而独立学习者仅为66.7% ± 47.1（随机水平50%）；图1（右）可视化了这一差距。随着后验集中，“询问”带变窄，自动批准率上升，然后在变化点处两者均急剧反应并恢复（图1，左），并且一个固定探测行动的位置（图1，中）。### 推理与相关泛化成立

表2 (https://arxiv.org/html/2605.19151#S10.T2) 报告了验证阶段（对所学内容的公平测量，变化点在其内部）和变化点后的测试阶段，并与一个将每个工具独立学习的无相关基线进行了比较。GP网关在验证阶段以97.3%的准确率和2.4%的错误允许率自动决策了68%的行动，在变化点后准确率达到99.7%；独立基线几乎自动决策所有内容，但准确率仅为69–71%，证实了是核而非三级规则承载了质量。相关泛化是决定性的：在一个*从未*被查询过的测试目录上的 `write_file` 操作上，GP仅通过与类似工具和目标的核外推，就能以98.7% ± 2.9 的概率恢复正确决策，而独立学习者仅为66.7% ± 47.1（随机水平50%）；图1（右）可视化了这一差距。随着后验集中，“询问”带变窄，自动批准率上升，然后在变化点处两者均急剧反应并恢复（图1，左），并且一个固定探测行动的位置（图1，中）。

渐进自主性作为偏好学习：智能体工具使用中信任校准的形式化

相似文章

从正确性到偏好：个性化智能体强化学习框架

通过不确定性对齐的强化学习探索智能体工具调用决策

何时信任工具？工具集成数学推理的自适应工具信任校准

我构建了一个信任引擎，帮助AI智能体逐步实现自主运行

# 数字学徒：人类主导的智能体AI开发框架

提交意见反馈