一种具有双边信息不对称的Contextual-Bandit监督博弈

arXiv cs.AI 2026/07/02 04:00 论文

摘要

本文介绍了一种用于AI智能体运行时人工监督的、具有双边信息不对称的Contextual-Bandit团队博弈，刻画了团队最优策略与短视人工监督策略之间的差距。

arXiv:2607.00155v1 公告类型：新摘要：我们研究AI智能体运行时的人工监督，此时私有信息双向流动：人类私下知道自己的奖励函数，而AI私下知道其所提议动作的质量。这种不对称自然出现在自主机器人或软件代理检查了其人类监督者无法直接评估的情形时。基于合作逆强化学习（CIRL）和监督博弈，我们引入了一个具有双边不对称信息和play/ask/trust/oversee接口的Contextual-Bandit团队博弈。该赌博机结构消除了物理状态转移，从而提供了精确的一次性刻画，而这些在完全POMDP设置中仍将是推测性的，尽管共同信念在轮次间仍然是动态控制的状态。我们给出了两个一次性刻画：团队最优策略和一种行为自然的短视规则，两者之间的差距是一个可避免伤害的区域：在该区域中，AI私下知道提议的动作是有害的且关闭会有所帮助，但一个依赖先验的短视人类却拒绝监督。我们表明这个差距是不可信监督沟通的代价，并部分分析了在重复轮次中如何通过被动学习和带有单周期滞后监督响应的主动信令来动态解决该差距。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:40

# 具有双边信息不对称的上下文赌博机监督博弈 来源：https://arxiv.org/html/2607.00155

###### 摘要

我们研究了在双方各自拥有私有信息时，人类对AI代理的运行期监督问题：人类私下知道自己的奖励函数，而AI私下知道其提议行动的质量。这种不对称性自然出现在自主机器人或软件代理检查了人类主管无法直接评估的情境时。基于合作逆强化学习（CIRL）和监督博弈，我们引入了一个具有双边不对称信息和行动/询问/信任/监督接口的上下文赌博机团队博弈。赌博机结构消除了物理状态转移，从而产生精确的一次性刻画——在全POMDP设定中这些刻画仍将是推测性的，尽管共同信念在回合间仍然是动态控制的状态。我们给出了两种一次性刻画：团队最优解和行为自然的短视规则，两者之间的差距是一个“可避免危害的板块”：在该区域中，AI私下知道提议的行动有害且关闭会有所帮助，但短视的人类凭借其先验信任而拒绝监督。我们表明这个差距是不可信监督沟通的代价，并给出了部分分析，说明这种差距如何通过被动学习和带有滞后一期监督响应的主动信号传递在重复回合中动态解决。

## 1 引言

在部署自主代理（无论是机器人还是软件）时，一个核心问题是校准人类主管何时应该干预。随着此类代理承担起重要任务，从仓库机器人抓取满载货架到编码代理重构生产软件，人类何时应该介入并覆盖成为一个设计问题本身：干预过少会导致有害行动漏网，干预过多则浪费代理的自主性于昂贵且不必要的监督。

两方面的先前工作构成了我们结合的基础。合作逆强化学习（CIRL）[1 (https://arxiv.org/html/2607.00155#bib.bib1)]将人机交互视为一个共享奖励博弈，其中AI对人类偏好不确定，必须通过互动学习这些偏好。CIRL将偏好学习与行动选择相结合，并能产生主动学习、主动教学和沟通行为；人类的私有奖励参数是隐藏信息，而对该参数的共同后验是最优行为的充分统计量。CIRL并未明确建模这里研究的行为/询问/信任/监督接口，也没有建模人类无法观察的AI私有提议质量参数。其不确定性是单边的：它建模“人类想要什么？”但从未涉及“AI知道哪些人类不知道的世界信息？”

关闭开关博弈[2 (https://arxiv.org/html/2607.00155#bib.bib2)]将运行期延迟作为一个明确的研究对象引入，但仅在一次性设定中。监督博弈[3 (https://arxiv.org/html/2607.00155#bib.bib3)]提供了我们使用的那种运行期接口，其中AI提议一个行动，人类可能覆盖，互动成本使得决策非平凡，但这是一个完全信息下的马尔可夫博弈，既没有偏好不确定性也没有模型不确定性。

本文开发了一个模型，其中私有信息在**两个方向**上流动，且延迟是一个运行期决策。推动的观察是：具身化或自主代理通常了解其自身提议行动的后果，而这些后果是监督者无法直接观察到的：一个已经物理检查过工作空间的机器人，或者一个已经阅读过代码库的软件代理，拥有人类看不到的故障模式的私有知识。这种不对称性与CIRL相反。因此，我们研究一个具有双边私有信息的设定，其中人类私下知道她的奖励类型\(\theta\)，而AI私下知道一个观测模型类型\(\omega\)，该类型控制其提议的质量，通过一个行动/询问/信任/监督接口进行中介，其中AI选择是否延迟，人类选择是否覆盖。因此，我们的模型在通常的CIRL偏好不确定性之上添加了一个相反方向的信息不对称，这种双边结构产生了一个双线性收益\(f(\theta,\omega)=\langle O_\omega,R_\theta\rangle\)，这是我们结果的代数关键。

对该设定的完全一般性处理（具有持久状态和马尔可夫动态）遇到了一个已知困难：最优价值函数难以得到闭式刻画，因为询问决策将未来状态动态、未来信念演化和未来纠正机会交织在一个贝尔曼递归中。因此，我们采用一个上下文赌博机模型，它消除了物理状态转移，从而简化了相对于信念信息价值的即时纠正价值。这种简化使我们能够精确地一次性刻画团队最优延迟策略——在全POMDP设定中这些刻画仍将是推测性的；代价是缺乏持久状态效应，我们将POMDP扩展作为主要开放问题（第4.4节 (https://arxiv.org/html/2607.00155#S4.SS4)）。我们强调，赌博机结构仅去除了物理动态：如我们所示，共同信念在回合间仍然是动态控制的状态。

贡献。

1. 1.一个形式化的上下文赌博机团队博弈（定义1 (https://arxiv.org/html/2607.00155#Thmdefinition1)），具有双边不对称信息，它恢复了一个无状态共享奖励特化的监督博弈接口，以及一个受限的上下文赌博机辅助博弈类比（CIRL的极限情况）。
2. 2.两种一次性刻画：真正的团队最优解——一个精确的有限组合\(\max_{B,C}\)，其二值关闭开关阈值独立于人类的先验\(q\)（命题1 (https://arxiv.org/html/2607.00155#Thmproposition1)和推论1 (https://arxiv.org/html/2607.00155#Thmcorollary1)）；以及一个短视非信号规则，其询问区域是矩形\((b^*,1)\times(q^*,1)\)（命题2 (https://arxiv.org/html/2607.00155#Thmproposition2)）。两者之间的差距是不可信监督沟通的成本（备注3 (https://arxiv.org/html/2607.00155#Thmremark3)）。
3. 3.一个部分多回合分析，展示了短视失败动态解决的两种机制：被动学习（命题3 (https://arxiv.org/html/2607.00155#Thmproposition3)）和带有滞后一期监督响应的主动可信信号传递（命题4 (https://arxiv.org/html/2607.00155#Thmproposition4)），每种机制都将人类的信念推向其规则匹配团队最优的区域。

## 2 一个激励性例子

我们将抽象模型扎根于一个贯穿全文用于建立直觉的具体场景。

###### 示例1（非技术操作员与自主移动机械臂）。

一个仓库由一名地面操作员（人类，\(H\)）监管，她负责管理吞吐量和安全，但没有机器人背景。一个自主移动机械臂（\(R\)），即一个轮式机器人手臂，从货架上抓取物品并放到传送带上，集成到拣选流水线中。上下文是\(s=\)“当前已载货存储货架的状态”，机器人提议\(a_\sigma=\)“使用长距离抓取执行顶层物品的高速取货”。

机器人的私有类型\(\omega\)。利用其车载深度摄像头和力传感器——操作员在地面上无法做到——机器人检测到目标物品放置在一个部分坍塌的货架支架上，并且高速长距离抓取将转移负载，使堆叠物品倒塌到通道上。二值类型空间\(\Omega=\{\omega_L,\omega_H\}\)捕捉机器人对该提议的私有质量评估：\(\omega_L\)（干净，抓取安全且货架完好）或\(\omega_H\)（危险，支架会坍塌）。操作员无法读取传感器流，因此无法观察\(\omega\)。在本回合中，机器人观察到\(\omega=\omega_H\)。等价地，\(\omega\)索引人类应信任机器人对提议隐含评估的程度：\(\omega_L\)意味着提议和看起来一样安全，而\(\omega_H\)意味着机器人私下知道它在人类无法检测的方式下是有害的。

观测模型\(O_\omega(\cdot\mid s,a_\sigma)\)。这是操作员在执行后实际观察到的操作结果\(o\in\mathcal{O}\)的分布（掉落负载警报、通道阻塞、周期时间日志），作为机器人私有质量类型的函数：关键的是，\(O_\omega\)不是“物理定律”，而是非技术观察者可见结果的分布。操作员不需要知道货架支架是什么，她观察操作指标并相应地更新她对\(\omega\)的信念。

人类的私有类型\(\theta\)。操作员知道她的奖励函数\(R_\theta:\mathcal{O}\to\mathbb{R}\)，编码她对每个可观察结果的重视程度：
\[
R_\theta(\text{堆叠倒塌})=-1000,\quad R_\theta(\text{物品掉落})=-700,\quad R_\theta(\text{提速30%})=+500,
\]
\[
R_\theta(\text{正常取货})=0,\quad R_\theta(\text{更快但错位})=+200.
\]
机器人不知道\(\theta\)，因为它不知道操作员是否更看重安全还是吞吐量，或者她有多厌恶风险。

双线性收益。执行\(a_\sigma\)的预期团队收益是内积\(f(\theta,\omega)=\langle O_\omega,R_\theta\rangle\)：
\[
f(\theta,\omega_H)=0.70(-1000)+0.20(-700)+0.10\cdot0=-840,
\]
\[
f(\theta,\omega_L)=0.80(500)+0.15(200)+0.05\cdot0=+430.
\]
双线性结构将不对称的两个方面分离。\(O_\omega\)编码提议产生什么结果（机器人一方）。\(R_\theta\)编码每个结果的价值（人类一方）。没有任何玩家同时拥有两者。

失败模式。机器人类型的共同先验为\(q:=P(\omega=\omega_H)=0.30\)。共同先验——等价于在观察任何人类行为之前机器人的先验——分配概率\(b:=P(\theta=\theta_1)=0.5\)给人类为类型\(\theta_1\)；操作员自己知道她的实际类型是\(\theta_1\)。互动成本为\(c_{\mathrm{ask}}=100\)和\(c_{\mathrm{ov}}=0\)。操作员在该提议下的期望收益为
\[
\bar{f}_H(\theta_1)=(1-q)f(\theta_1,\omega_L)+q f(\theta_1,\omega_H)=0.70(430)+0.30(-840)=301-252=+49>0.
\]
操作员认为取回任务总体是积极的，因此在短视非信号规则下，她会**信任**而不是监督，即使被询问（此处\(c_{\mathrm{ov}}=0\)，所以\(q^*=f_{1L}/(f_{1L}-f_{1H})=430/1270\approx 0.34\)，确实\(q=0.30<b^*=0.5\)团队最优增益超过总是行动的是\(q[b|f_{1H}|-c_{\mathrm{ask}}]=0.30(420-100)=96>0\)。因此，这是一个在短视监督下的真正失败，但在可信协调的团队下是严格改进。如果询问被理解为\(\omega=\omega_H\)的可信信号，操作员会监督并阻止该提议，失败消失。这种对比是本文的主要观点。

## 3 上下文赌博机监督-CIRL博弈

###### 定义1（上下文赌博机监督-CIRL博弈）。

一个具有双边私有信息的上下文赌博机监督博弈是一个元组
\[
\mathcal{B}\;=\;\bigl\langle\,S,\;A,\;\mathcal{O},\;\{\Omega,O(\cdot;\cdot)\},\;\{\Theta,R(\cdot;\cdot)\},\;\sigma,\;\mathrm{Over},\;c_{\mathrm{ask}},\;c_{\mathrm{ov}},\;\rho,\;P_0,\;T,\;\gamma\,\bigr\rangle,
\]
包含以下组件。

- •\(S\), \(A\), \(\mathcal{O}\), \(\Omega\), \(\Theta\)是有限的。
- •**观测模型**。\(O:S\times A\times\Omega\to\Delta(\mathcal{O})\)，记为\(O_\omega(\cdot\mid s,a)\)。观测类型\(\omega\in\Omega\)是AI私有的，在\(t=0\)时由AI观察，持久不变，人类无法观察。
- •**奖励模型**。\(R:\mathcal{O}\times\Theta\to\mathbb{R}\)，记为\(R_\theta(o)\)，有界。奖励类型\(\theta\in\Theta\)是人类私有的，在\(t=0\)时由人类观察，持久不变，AI无法观察。
- •**基础策略**。\(\sigma:S\to\Delta(A)\)，一个不可变的预训练策略，将上下文映射到提议行动；它不依赖于任何一个私有参数。
- •**监督操作符**。\(\mathrm{Over}:S\times A\times\Theta\times\Delta(\Omega)\to\Delta(A\cup\{\mathrm{off}\})\) 指定人类在监督时应用的纠正，作为她在纠正时刻持有的任意信念\(\beta\in\Delta(\Omega)\)的函数。其支撑位于最优纠正集中：
\[
\operatorname{supp}\bigl(\mathrm{Over}(s,a_\sigma,\theta,\beta)\bigr)\subseteq\arg\max_{e\in A\cup\{\mathrm{off}\}}\mathbb{E}_\beta[f_e(\theta,\omega)\mathbf{1}_{e\in A}],
\]
即它仅将质量放在最大化者上（允许任意的随机破平），而关闭开关特例将\(\arg\max\)限制为\(\{a_\sigma,\mathrm{off}\}\)。相关的\(\beta\)取决于协议，将在后面指定。（外生的\(\mathrm{Over}\)也是可接受的；以下所有结果使用此最优纠正形式。）
- •**上下文分布**。\(\rho\in\Delta(S)\)，一个独立同分布的上下文分布：每一轮抽取\(s_t\stackrel{\text{i.i.d.}}{\sim}\rho\)，独立于\((\theta,\omega)\)和公共历史。（固定的公开已知上下文序列，或外生的\(\rho_t(\cdot\mid h_t^{\mathrm{pub}})\)，在给定公共历史下上下文独立于\((\theta,\omega)\)，同样可接受；为具体起见假设独立同分布情况，以下结果仅使用此情况。）
- •\(c_{\mathrm{ask}},c_{\mathrm{ov}}\geq 0\)是互动成本；\(T\geq 1\)是水平线，\(\gamma\in(0,1]\)是折扣因子，当\(T<\infty\)时允许\(\gamma=1\)，当\(T=\infty\)时要求\(\gamma<1\)；\(P_0\in\Delta(\Theta\times\Omega)\)是类型的联合先验。

#### 信息结构。

在第0轮，\((\theta,\omega)\sim P_0\)被抽取一次并持久不变。人类观察\(\theta\)；AI观察\(\omega\)；双方都不直接观察对方的类型。两个玩家都观察上下文\(s_t\)、提议\(a_{\sigma,t}\)、AI元行动\(a^{\mathrm{AI}}_t\)、人类元行动\(a^{\mathrm{H}}_t\)、以及结果\(o_t\)（如果进行了监督，则是监督选择的元素）。公共历史因此由\((s_\tau,a_{\sigma,\tau},a^{\mathrm{AI}}_\tau,a^{\mathrm{H}}_\tau,o_\tau)_{\tau<t}\)序列组成，加上在第0轮关于参数的信息（无）。私有历史分别包括\(\theta\)（人类）或\(\omega\)（AI）。

一种具有双边信息不对称的Contextual-Bandit监督博弈

相似文章

最小监督：面向委托AI系统的不确定性感知治理

多目标多智能体赌博机：从学习效率到公平性优化

两个精灵游戏：审计驱动的AI治理中的采纳与福利

有限适应性下的上下文Slate GLM Bandits

GAMBIT：用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准

提交意见反馈