# 数字学徒：人类主导的智能体AI开发框架

arXiv cs.AI 2026/06/04 04:00 论文

agentic-ai human-ai-collaboration ai-governance autonomy alignment inference-time responsible-ai

摘要

本文介绍了"数字学徒"（Digital Apprentice）框架——一个可扩展且安全的智能体 AI 体系，其中自主权通过观察学习、人工授权和持续对齐校正的方式逐步获得。本文还介绍了 ADAPT，一种推理时控制平面，用于将渐进式自主权等级付诸实践，并将人工校正转化为可复用的偏好数据。

arXiv:2606.04321v1 公告类型：新论文摘要：智能体 AI 的部署面临一个反复出现的设计张力：过度的人工监督限制了规模化，而过于宽泛的自主权则超出了问责范围。两种方式都无法提供负责任委托所需的治理基础设施。我们提出"数字学徒"（Digital Apprentice）框架，这是一种可扩展、安全的 AI 智能体框架，其中自主权是通过积累获得的，而非预先假定的。数字学徒是一个发展型学习者，它内化指导人员的隐性方法论，只有在经验证据充分支持的情况下，才能逐步晋升至各项技能的更高自主层级。最终形成的智能体不仅随时间推移变得真正实用，同时始终与特定人员的标准保持对齐。三个架构组件使这一目标成为可能：（1）**方法论捕获**，将指导专业人员的隐性方法提炼为结构化资产；（2）**授权机制**，自主权的提升须经由明确的人工审批把关；（3）**持续对齐**，在运行时纠正偏差，并将每次纠正转化为自有偏好数据。我们将该框架实例化为一个推理时控制平面，对质量框架进行数学建模，并讨论旨在提升质量的策略与技术。我们将该框架应用于一个开放的专业语料库，并展示了如何通过捕捉数据漂移并在运行时应用不同技术，在流量分布发生偏移时恢复退化的质量维度。这一意义超越了任何单一应用场景。我们相信，这三大支柱作为一个整体系统加以整合，为构建能够规模化扩展而不牺牲信任的智能体系统，提供了一条更安全、更可行的路径。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:06

# 面向人类引导的智能体AI开发框架：通过观察学习与推理时决策记忆实现逐步授权的自主性

来源：https://arxiv.org/html/2606.04321

###### 摘要

智能体AI的部署面临一个反复出现的设计矛盾：严格的人工监督限制了规模扩展，而广泛的自主性又超出了问责范围。这两种方式都无法为负责任的授权提供所需的治理基础设施。

我们提出"数字学徒"框架，这是一种可扩展、安全的AI智能体框架，其中自主性是通过努力获得的，而非预设的。数字学徒是一个发展型学习者，它会内化引导人类的隐性方法论，只有在经验证据充分支持时，才能在各项技能上逐级提升自主权限。最终，这个智能体会随着时间的推移变得真正有用，同时始终与特定人类的标准保持一致。

三个架构组件使这一切成为可能：（1）**方法论捕获**，将引导专业人员的隐性方法提炼为结构化资产；（2）**授权机制**，自主权的提升以明确的人类批准为前提；（3）**持续对齐**，在运行时纠正漂移，并将每次纠正转化为自有的偏好数据。

我们将该框架实例化为一个推理时控制平面。我们对质量框架进行了数学建模，并讨论了旨在提升质量的策略与技术。我们将该框架应用于一个开放的专业语料库，并展示了如何在运行时检测数据漂移并切换不同技术，从而在流量分布变化的情况下恢复退化的质量维度。

这一意义超越了任何单一应用。我们相信，将这三大支柱作为一个系统整合在一起，为可扩展且不牺牲信任的智能体系统提供了一条更安全、更可行的发展路径。

## 1 引言

专业人员对智能体AI的采用，受限于治理问题，而非模型的原始能力。组织通常会将自主权委托给软件，但很少具备负责任委托所需的三个要素：一种捕获特定场景下定义胜任工作的隐性方法论的方式、一份记录谁授权了哪些内容的档案，以及在条件变化时保持持续对齐的机制。以工具为中心的副驾驶将每次推理视为无状态事件，无法积累专业人员判断的持久记录。最大化自主性的智能体会在尚未证明其在特定场景下可靠之前便广泛行动。两者都让组织处于暴露风险之中。

我们提出两部分解答。**数字学徒**是一个面向人类引导开发的概念框架，其中智能体对某项技能的权限，只有在其证明了该技能的胜任能力并获得人类授权后才能扩展。**ADAPT**（自适应数据增强与偏好调整，Adaptive Data Augmentation and Preference Tuning）是将该框架付诸实践的推理时控制平面：它运行多种策略，从多个维度衡量输出质量，并将每次人类纠正记录为可复用的偏好信号，这些信号保存在组织的环境中。在此设计下，推理成为一个生成记录的事件。每条判断都被外部化，隔离在产生它的租户内，可用于上下文引导，或在必要时用于模型更新。概念框架规定了每个层级的自主性形态；控制平面规定了该自主性如何被衡量、维护和撤销。这种分离使框架能够从自身角度被评估，而ADAPT只是一种实现方式，而非框架的定义本身。治理不止于政策层面，它通过基于专业人员方法论的数据驱动决策来执行政策。

现有分类体系描述了自主性的不同形态；我们的贡献在于提供了在各层级之间移动的机制：什么证据能够证明自主权的提升是合理的、谁必须对此进行授权，以及系统如何检测何时应当撤回自主权。

## 2 渐进式自主框架

### 2.1 按技能划分的状态机

在数字学徒中，自主性是系统在特定时刻针对每项技能所持有的属性，以有限状态机（表1）表示，而非固定的基准层级。智能体不能自我晋升。从一个层级晋升到下一个层级，既需要该技能胜任能力的经验证据，也需要有记录的人类授权。降级是非对称的：当质量退化时，系统会自动将该技能降级，无需等待人类行动。

这种按技能、按角色索引的结构与按人类对智能体所保留角色来索引控制权的自主权层级分类体系相一致（Feng et al., 2025; Beer et al., 2014）。区别在于，那些分类体系描述的是各层级，而我们规定的是层级之间的转换条件。

**表1：按技能划分的自主权层级。** 入口为Pre-L0（仅观察）。晋升到L0只需在观察期（$N$个会话）结束后获得明确的人类授权；毕业晋升准则（公式3）适用于所有后续层级的转换。

### 2.2 毕业晋升数学模型

设 $W_t$ 为针对单项技能的连续 $N$ 个输出构成的第 $t$ 个评估窗口。晋升检查使用不重叠窗口；滚动窗口可用于运行时监控。设 $c(x)=1$ 表示输出 $x$ 需要人类纠正，否则为0。每窗口纠正率为：

$$\rho(W)=\frac{1}{|W|}\sum_{x\in W}c(x) \tag{1}$$

当经过验证的质量评分器 $Q(x)$ 可用时，以可接受性阈值 $\tau$ 为界，窗口内须有比例 $p$ 的输出超过该阈值：

$$\frac{1}{|W|}\sum_{x\in W}\mathbf{1}[Q(x)\geq\tau]\geq p \tag{2}$$

从层级 $L_i$ 晋升到 $L_{i+1}$ 需满足三个条件加授权。**(C1) 净改进**：当前窗口的纠正率低于 $k$ 个窗口之前（$\rho(W_t)<\rho(W_{t-k})$；我们使用 $k=3$），在适应正常方差的同时检测真实改进。**(C2) 低残余纠正率**：$\rho(W_t)\leq\tau_{\mathrm{corr}}$。**(Q1) 评分器门控**：公式2在当前窗口成立。设 $H_{\mathrm{auth}}\in\{0,1\}$ 记录明确的人类授权事件。晋升条件为：

$$\mathrm{Graduate}(L_i\!\to\!L_{i+1})\iff(C1\land C2) \tag{3}$$
$$\quad\land(\neg\textsc{scorer}\lor Q1)\land(H_{\mathrm{auth}}{=}1)$$

纠正率门控存在一个已知的漏洞，我们直接加以应对：低纠正率既可能表明真正的胜任能力，也可能表明审核者已经停止认真检查。这是人因工程文献中记载的自动化自满失效（Parasuraman & Manzey, 2010）。我们将审核者的参与度作为一个被监控的量，而非一个假设前提。当 $\rho(W)>\rho_{\mathrm{demote}}$ 或分布外不确定性超过 $u_{\max}$ 时，技能自动降级；我们使用基于速率的触发器，使得L2级别的普通输出噪声不会引起振荡。重新升级需要以新的 $H_{\mathrm{auth}}$ 再次满足公式3。

### 2.3 两阶段学习

学习分两个阶段进行，两者在速度和可逆性上有所不同。在**第一阶段**，人类纠正会填充偏好对，作为租户隔离的决策记忆，在推理时检索以立即引导输出。第一阶段充当即时安全缓冲：基于近期纠正的引导可在数小时内完成适应，而底层模型保持不变。该阶段完全可逆，无需更新生成器。在**第二阶段**，一旦积累的偏好对在数量和统计显著性上跨越设定阈值，这些偏好对将被导出到模型更新步骤，例如监督微调或直接偏好优化（Ouyang et al., 2022; Rafailov et al., 2023; Christiano et al., 2017）。第二阶段激活的领域特定阈值的确定留作未来工作。多维评分器上的质量回归会在提交前拒绝不良更新。每次更新都可追溯到特定的人类纠正或观察到的人类决策，这一属性使该循环区别于开放式的自我改进。

## 3 ADAPT：推理时控制平面

ADAPT将数字学徒实例化为持续学习基础设施，位于组织的编排层与模型提供商之间。四个组件构成一个循环：（1）**资产合成**（方法论、风格和权威示例，经过专业验证后使用）；（2）**多策略推理**（RAG、方法论条件生成、best-of-$N$以及多样性门控融合）；（3）**质量遥测**（沿命名维度进行向量评分，见表2）；（4）**偏好发射**（来自人类纠正和策略比较的加权偏好对）。这些技术既借鉴了经典机器学习方法（RAG、best-of-$N$采样），也引入了我们提出的控制平面技术（方法论条件生成、多样性门控融合）。

每个推理事件遵循四步流水线。**分支**：给定提示 $x$，分支策略（例如，不同模型温度的best-of-$N$采样、RAG检索的top-$k$设置，或不同的提示框架如"建议"vs."草稿"vs."挑战"）生成候选输出 $Y_N=\{y^{(1)},\ldots,y^{(N)}\}$。**评分**：每个候选输出获得一个雷达向量 $\mathbf{r}(x,y)$（表2）。**分诊**：可插拔评分器（LLM作为裁判的评分标准、训练好的奖励模型，或经批准示例的嵌入质心）计算 $R(y)=\mathrm{agg}(\mathbf{r})$ 并对候选输出排名；系统将得分最高的 $y^+$ 呈现给引导专业人员进行验证或纠正，其余视为 $y^-$。**发射**：每次比较都成为一个偏好元组。被拒绝的候选输出自动形成元组 $(x,y^+,y^-,w_{\mathrm{auto}})$，其中 $w_{\mathrm{auto}}\in[0.2,0.5]$，来源标注为 `policy_comparison`。人类纠正形成的元组带有 $w_{\mathrm{human}}=1.0$，来源标注为 `human_correction`。这些记录作为租户隔离的决策记忆，用于上下文引导或可选的模型更新。试点中使用了 $w_{\mathrm{auto}}=0.35$。

### 3.1 方法论质量评分标准

我们将专业质量评分为六维向量，而非单一的不透明数字，以便即使在其他维度保持稳定时，某一维度的漂移也能清晰可见。评分标准维度在与引导专业人员的结构化入职过程中定义，反映了在该实践中区分胜任工作与专家工作的特质。该框架支持任意 $d\geq 1$；我们在此实例化了 $d=6$（表2）。

**表2：质量评分标准维度（$d=6$）。**

### 3.2 漂移、策略切换与重新校准

漂移是多维的。当传入请求移向入职分布的邻近区域（同一职业，但涉及未见过的话题或案例）时，方法论维度可能保持稳健，而操作维度（可操作性、情境敏感性、安全边界）则会发生变形。控制平面通过定量方式检测这种分布变化：对每个输出进行滚动窗口雷达遥测，可揭示维度特定的评分变形（例如，在方法论适合度保持稳定的同时，依据性或可操作性下降）。当每个维度或均值评分跨越校准阈值时，会标记局部回归并触发策略切换。控制平面区分三种原因：人类方法论已演变（加速观察并纳入新示例）、智能体发生回退（回滚并提高审核频率）、或评估标准发生变化（修订评分标准定义并重新基线化历史遥测数据）。每种原因需要不同的应对方式。当检测到局部退化时，ADAPT在运行时切换策略，而非服务于静态"最优"的入职策略。控制平面从更广泛的策略库中应用技术。经典互信息衡量候选输出之间的成对统计依赖性；我们改用基于质量评分空间中离散度的轻量级替代方案。对于通常为按均值评分排名的前 $k$ 个候选输出、在不同框架下生成的短名单子集 $S\subseteq Y_N$，我们将多样性计算为雷达向量之间的平均成对欧氏距离：

$$\Delta_f(S)=\frac{2}{|S|(|S|-1)}\sum_{1\leq i<j\leq|S|}\left\lVert\mathbf{r}\bigl(y^{(i)}\bigr)-\mathbf{r}\bigl(y^{(j)}\bigr)\right\rVert_2 \tag{4}$$

其中 $\mathbf{r}(y^{(i)})$ 是候选输出 $y^{(i)}$ 的六维雷达向量。低 $\Delta_f$ 表明尽管框架不同，候选输出仍坍缩到相同的质量轮廓上；在这种情况下，跳过合成步骤。高 $\Delta_f$ 表明候选输出在质量空间中占据不同的点，说明融合是合理的，可用于恢复没有单一候选输出表现强劲的维度。这种融合可以通过融合算子 $\mathcal{F}$ 将具有互补评分轮廓的输出组合起来，合成一个综合答案：

$$y_{\mathrm{fuse}}=\mathcal{F}(x,S)\quad\text{当 }\Delta_f(S)\geq\delta \tag{5}$$

其中 $\delta$ 是可调阈值。由于雷达维度归一化到 $[0,1]$，$\Delta_f$ 以 $\sqrt{d}$ 为上界（对于 $d=6$，最大约为 $\approx 2.45$）；$\delta$ 在验证流量上校准。该离散度作为推理时融合的轻量级多样性门控：它复用控制平面已经计算的雷达评分，无需额外的嵌入模型。在运行时，控制平面可以应用、跳过或在检测到漂移时完全切换策略；多样性度量是其中一个组件，而非整体策略。当 $y_{\mathrm{fuse}}$ 相对于单一最优候选输出改善了退化维度而不损害强劲维度时，会发射一个融合元组，在不牺牲强劲方法论评分的前提下恢复操作维度。

## 4 相关工作

人在回路（human-in-the-loop）和人在环路（human-on-the-loop）设计要么难以扩展，要么对于智能体工作负载而言干预过晚（Wu et al., 2022）。基于人类反馈的强化学习和直接偏好优化将模型与聚合偏好对齐（Christiano et al., 2017; Ouyang et al., 2022; Rafailov et al., 2023），但它们针对的是群体偏好，而非特定引导专业人员的方法论，也无法自行检测观察或行动过程中的漂移。随着部署从文本扩展到多模态感知，我们预计这一差距将进一步扩大。Best-of-$N$ 方法会丢弃被拒绝的候选输出，而非将其保留为决策记忆。

# 数字学徒：人类主导的智能体AI开发框架

相似文章

设计治理：构建面向组织学习与可扩展自主性的代理型人工智能

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

观点：Agentic AI系统是实现AGI的可预见路径

为公司构建 AI Agent

科学领域的代理型AI实验

提交意见反馈