超越伙伴多样性：基于影响的团队引导框架用于零样本人机协作

arXiv cs.AI 2026/05/18 04:00 论文

摘要

本文提出了基于影响的团队引导（IBTS）框架，用于零样本人机协作。该框架通过影响力塑造发现多样化的交互模式，并将轨迹引导至更强的协调方向。在包含两个智能体与三个智能体的Overcooked-AI实验（包括一项30名受试者的人类研究）中，IBTS在团队表现上优于基线方法。

arXiv:2605.15400v1 公告类型：新论文摘要：尽管AI智能体正从孤立工具快速演变为交互式协作者，但数据驱动的人机协作（HMT）方法仍成本高昂，因为它们依赖跨领域、跨队友和跨团队规模的人类交互数据。零样本协调（ZSC）通过模拟多样化的伙伴群体来逼近未见过的伙伴可能的行为，从而解决了这一瓶颈。然而，随着团队规模扩大和通信质量下降，仅靠伙伴覆盖已不足够。为弥补这一缺陷，我们提出了基于影响的团队引导（IBTS）框架，该框架利用影响力塑造来激励智能体发现多样化且高效的团队交互模式，并进一步将进行中的轨迹引导至更强的学得协调模式。我们在Overcooked-AI上评估了IBTS，包括两个智能体和三个智能体的设置，从而测试学得的协调结构是否能超越二元交互进行迁移。我们的评估包括模拟伙伴、合成伙伴风格变化，以及（据我们所知）首次涉及两名真实人类队友和一名机器队友的30名受试者Overcooked-AI人机协作研究。在这些评估中，IBTS在团队表现上优于竞争基线，凸显了扩展的零样本协调需要将稀疏奖励协调机制与伙伴变化覆盖相结合，而非仅依赖多样性。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:32

# 基于影响的团队引导框架：面向零样本人机协作  
**来源：** https://arxiv.org/html/2605.15400  
魏盛  
计算机科学系，普渡大学  
[email protected]  
&罗汉·帕莱贾  
计算机科学系，普渡大学  
[email protected]  

###### 摘要  
尽管AI智能体正从孤立工具快速演变为交互式协作者，数据驱动的人机协作（HMT）方法仍需跨领域、跨队友及跨团队规模依赖人类交互数据，成本高昂。零样本协作（ZSC）通过模拟多样化伙伴种群来近似未见伙伴的行为，从而解决这一瓶颈。然而，随着团队规模扩大、通信质量下降，仅靠伙伴覆盖度已不足够。为弥补这一缺陷，本文提出**基于影响的团队引导（IBTS）**框架，该框架利用影响塑造激励智能体发现多样化且高性能的团队交互模式，并进一步将当前轨迹引导至更强的习得协作模式。我们在Overcooked-AI上对IBTS进行了评估，涵盖双智能体和三智能体设置，以检验习得协作结构能否超越二体交互实现迁移。评估对象包括模拟伙伴、合成伙伴风格变体，以及——据我们所知——首次涉及两位真实人类队友与一位机器队友的30名受试者Overcooked-AI人机协作研究。在这些评估中，IBTS相比竞争基线显著提升了团队表现，凸显了规模化ZSC需将稀疏奖励协作机制与伙伴变体覆盖相结合，而非仅依赖多样性。

## 1 引言  
近期，服务于人体邻近工作的具身机器投入激增，例如Apptronik的Apollo[15](https://arxiv.org/html/2605.15400#bib.bib20)——一种旨在与人类协作并协助完成体力劳动的人形机器人——这凸显了人机协作（HMT）的日益增长需求[44](https://arxiv.org/html/2605.15400#bib.bib51), [34](https://arxiv.org/html/2605.15400#bib.bib2), [16](https://arxiv.org/html/2605.15400#bib.bib4)。针对每项任务收集代表性人类交互数据是解决许多二体HMT挑战的直接途径，但当团队中增加一名人类成员时，这一方法便变得繁重。新增队友将交互空间扩展到个体人机适配之外，要求机器考虑个体偏好[47](https://arxiv.org/html/2605.15400#bib.bib21)、涌现的人人协作，以及在有限通信和模糊意图线索下的信任中介任务分配动态[31](https://arxiv.org/html/2605.15400#bib.bib28), [2](https://arxiv.org/html/2605.15400#bib.bib23)。这一障碍促使我们将焦点放在零样本协作（ZSC）[42](https://arxiv.org/html/2605.15400#bib.bib25)上，并将常用的一人-一机设置扩展为两人-一机设置，作为向更真实人类群体协作迈出的最小一步。

零样本协作中分布外（OOD）难题的一种标准解决方案是：训练智能体以对抗模拟伙伴种群，并学习针对它们的最优反应[43](https://arxiv.org/html/2605.15400#bib.bib9)。近期方法通过扩大训练种群内的伙伴多样性[36](https://arxiv.org/html/2605.15400#bib.bib49), [55](https://arxiv.org/html/2605.15400#bib.bib12)进一步提升了鲁棒性。然而，随着队友种群扩大，仅靠伙伴多样性仍不足够，因为人类行为模拟无法被穷尽覆盖[7](https://arxiv.org/html/2605.15400#bib.bib13)，而最优反应学习可能收敛至鲁棒但静态的通用策略，这类策略难以维持有效的协作模式[29](https://arxiv.org/html/2605.15400#bib.bib24)。这启发我们寻求超越多样性的准则来识别高效的协作模式，并强化最优反应训练中使用的学习信号，以便将当前交互引导至这些模式。

*参见图注*

**图1：** IBTS概述。阶段1利用影响塑造的协作奖励和行为多样性构建多样化团队池。阶段2训练一个预测器，将近期轨迹映射为协作嵌入和团队相似性分布。阶段3利用预测的团队相似性和团队得分定义引导奖励，用于训练最优反应策略。

本文提出**基于影响的团队引导（IBTS）**，一种新颖的HMT框架，它通过习得协作指导来增强伙伴多样性。IBTS首先在团队生成阶段通过影响塑造促进支持性行为模式，然后学习一个轨迹预测器，从交互历史中识别这些模式。最后，IBTS利用这种实时识别作为引导信号，将机器队友导向更强的习得协作模式。我们在标准双智能体Overcooked-AI设置[5](https://arxiv.org/html/2605.15400#bib.bib1)和扩展的三智能体Overcooked-AI设置中实例化了IBTS。我们使用模拟习得伙伴、合成LLM伙伴以及真实人类队友对IBTS进行了评估。在这些评估中，IBTS优于强多样性聚焦基线，表明习得的团队表现结构在双智能体和三智能体团队中提供了超越伙伴覆盖度的有用优化信号。总之，本文的贡献如下：

- **我们提出IBTS**，一种将伙伴多样性与习得团队表现结构相结合的HMT框架。在训练中，IBTS利用影响塑造发现支持性协作模式，并利用预测器引导来训练最优反应策略。在部署时，该策略利用习得的轨迹表示识别与未见队友的当前协作模式，并将交互引导至更强的习得模式。
- **我们将Overcooked-AI评估扩展到可复用的三智能体布局**和条件于个性的合成AI协议，表明IBTS在模拟任务评估和合成伙伴风格变化上均优于强多样性聚焦基线。
- **我们开展了一项30名参与者的人类研究**并发布——据我们所知——首个包含90条轨迹的2人-1AI Overcooked-AI协作数据集，以支持未来规模化HMT研究。

## 2 预备知识与相关工作  
本节回顾为IBTS奠定基础所需的知识，涵盖HMT、多样性驱动的ZSC、影响塑造以及本文所用的Dec-POMDP框架。

**人机协作**。我们的工作研究人机协作（HMT），其中自主智能体作为相互依赖的协作者，在交互过程中适应人类行为的同时，为共享目标做出贡献[30](https://arxiv.org/html/2605.15400#bib.bib26), [40](https://arxiv.org/html/2605.15400#bib.bib46)。研究此类交互的典型测试平台是Overcooked-AI[5](https://arxiv.org/html/2605.15400#bib.bib1), [9](https://arxiv.org/html/2605.15400#bib.bib18)，其中团队因完成需要协作、对齐和角色分配的烹饪任务而获得共享奖励。然而，先前基于Overcooked-AI的HMT评估集中于二体一人-一AI交互[6](https://arxiv.org/html/2605.15400#bib.bib27), [8](https://arxiv.org/html/2605.15400#bib.bib19), [46](https://arxiv.org/html/2605.15400#bib.bib15)，而真实协作环境往往涉及机器队友需与多个人类伙伴协同的混合团队[31](https://arxiv.org/html/2605.15400#bib.bib28)。将HMT扩展到二体以上会引入额外复杂性，因为机器必须适应个体人类偏好，同时保持人类队友间已有的协作，且在日益受限的通信和模糊意图线索下进行。

数据驱动的HMT解决方案，例如从人类示范中学习[41](https://arxiv.org/html/2605.15400#bib.bib48), [27](https://arxiv.org/html/2605.15400#bib.bib29)，在跨任务和团队组成部署时可能变得繁重，因为代表性人类交互数据和任务特定接口往往成本高昂或无法获取。这一负担促使我们寻求可扩展的HMT智能体，使其能在训练期间无需访问目标人类数据的情况下泛化至未见的人类伙伴。

**零样本协作**。学习如何使智能体在测试时与先前未见过的队友协作而不需额外适配，是零样本协作（ZSC）的核心目标[3](https://arxiv.org/html/2605.15400#bib.bib47), [33](https://arxiv.org/html/2605.15400#bib.bib57), [50](https://arxiv.org/html/2605.15400#bib.bib10)。自我对弈（SP）中，智能体通过与自身副本交互学习，往往产生脆弱约定，难以泛化至新伙伴[5](https://arxiv.org/html/2605.15400#bib.bib1), [12](https://arxiv.org/html/2605.15400#bib.bib11)。基于种群的方法[13](https://arxiv.org/html/2605.15400#bib.bib31), [25](https://arxiv.org/html/2605.15400#bib.bib30), [51](https://arxiv.org/html/2605.15400#bib.bib55)通过将智能体暴露于更广泛的模拟队友集来解决这一限制，包括虚构共同对弈（FCP）[43](https://arxiv.org/html/2605.15400#bib.bib9)——训练智能体对抗历史伙伴种群；最大熵种群训练（MEP）[55](https://arxiv.org/html/2605.15400#bib.bib12)——添加熵奖励以促进队友策略多样性；以及GAMMA[21](https://arxiv.org/html/2605.15400#bib.bib14)——通过生成式队友表示建模异构伙伴行为。然而，随着智能体数量增加，这些方法可能仍难以实现充分覆盖，因为智能体可能采用更广泛的角色分配、时序约定和交互模式[53](https://arxiv.org/html/2605.15400#bib.bib58)。最近的潜在策略方法[11](https://arxiv.org/html/2605.15400#bib.bib5)，例如TALENTS[19](https://arxiv.org/html/2605.15400#bib.bib3)，学习协作行为的隐式结构化表示以扩大多样性范围，并优于先前基于种群的基线。但它们在奖励反馈过弱而无法揭示有效协作行为时仍然脆弱。因此，IBTS在潜在策略设计的基础上拓展多样性，同时向环境奖励之外注入协作线索以强化高效模式。

**影响塑造**。生成具有协作行为的多样化团队需要角色专业化，这可以通过合作性多智能体强化学习（MARL）[48](https://arxiv.org/html/2605.15400#bib.bib42), [23](https://arxiv.org/html/2605.15400#bib.bib41)实现。一种常见框架是集中训练与分散执行（CTDE），其中集中式信息可稳定联合优化，同时每个智能体在测试时仍基于局部观测行动[24](https://arxiv.org/html/2605.15400#bib.bib45), [1](https://arxiv.org/html/2605.15400#bib.bib32)。基于PPO[38](https://arxiv.org/html/2605.15400#bib.bib50)的CTDE方法，如多智能体近端策略优化（MAPPO）[52](https://arxiv.org/html/2605.15400#bib.bib6)，已在多智能体基准测试中展现出强劲性能[35](https://arxiv.org/html/2605.15400#bib.bib8), [45](https://arxiv.org/html/2605.15400#bib.bib52), [18](https://arxiv.org/html/2605.15400#bib.bib7)，使其成为发现协作团队行为的自然基础。然而，更大规模的团队和更长的任务依赖关系使稀疏共享奖励的信息量降低，因为罕见的成功可能无法揭示哪些交互产生了协作[22](https://arxiv.org/html/2605.15400#bib.bib34), [20](https://arxiv.org/html/2605.15400#bib.bib33)。基于影响的塑造通过奖励那些影响队友未来行为的动作来缓解此问题，从而将优化偏向于与交互相关的后果，而非孤立个体进展[14](https://arxiv.org/html/2605.15400#bib.bib16), [49](https://arxiv.org/html/2605.15400#bib.bib35)]。该机制可在自我对弈中暴露可复用的协作结构，但由于原始影响不一定有益于任务，IBTS将产生的交互模式与习得的团队表现联系起来，使得最优反应训练能将团队引向更高回报的协作模式。

**马尔可夫决策过程**。为建模HMT，我们将协作任务形式化为分散式部分可观测马尔可夫决策过程（Dec-POMDP）[4](https://arxiv.org/html/2605.15400#bib.bib36), [32](https://arxiv.org/html/2605.15400#bib.bib37)。一个Dec-POMDP包含有限智能体集合 $N=\{1,\ldots,n\}$、全局状态 $s\in\mathcal{S}$、每个智能体的动作空间 $\mathcal{A}^i$（联合动作 $\mathbf{a}=(a^1,\ldots,a^n)\in\mathcal{A}=\prod_i\mathcal{A}^i$）、以及从底层状态生成的局部观测 $o^i\in\Omega^i$。在每个时间步 $t$，每个智能体仅使用其局部信息选择动作 $a_t^i$，环境根据 $\mathcal{T}(s_{t+1}\mid s_t,\mathbf{a}_t)$ 演化，团队获得共享奖励 $r_t=R(s_t,\mathbf{a}_t)$。目标是学习分散式策略 $\pi_i(a^i\mid o^i)$，以最大化有限视野折现回报 $\mathbb{E}\left[\sum_{t=0}^{H-1}\gamma^t r_t\right]$，其中 $H$ 表示回合长度，$\gamma\in[0,1]$ 为折现因子。

## 3 方法  
本节正式描述IBTS的三个阶段，用于训练可部署的机器队友，如图1所示。

### 3.1 多样化团队池构建  
本小节解释团队池构建阶段中使用的两个内在项。第3.1.1节介绍基于影响的协作塑造项，通过奖励那些为队友后续行动创造机会的动作来鼓励更强的协作模式。第3.1.2节介绍行为多样性项，有助于在池中各团队间维持不同的约定。算法1总结了完整的团队池构建过程。

#### 3.1.1 面向协作行为的影响塑造  
仅靠环境奖励可能无法可靠地诱导协作行为。附录C.1展示了一个三智能体布局中的失败模式，其中标准MAPPO基线难以发现简单的流水线行为。为使团队池偏向这类支持交互的行为，我们在自我对弈目标中增加一个影响塑造项，以奖励那些为队友后续行动创造机会的动作。令 $\tilde{o}_t=(o_t^i)_{i\in N}$ 表示时刻 $t$ 的联合观测，$\Phi(\tilde{o}_t)$ 编码从 $\tilde{o}_t$ 中提取的最小通用协作特征集，包括智能体位置、物体位置及物体持有状态。然后我们将显著动作 $a_t^*$ 定义为预期能引起协作状态最大变化的动作，如式(1)所示：

$$
a_t^*\in\arg\max_{a\in\mathcal{A}} \mathbb{E}\left[\|\Phi(\tilde{o}_{t+1})-\Phi(\tilde{o}_t)\|_2 \mid \tilde{o}_t, a_t=a\right]
$$

超越伙伴多样性：基于影响的团队引导框架用于零样本人机协作

相似文章

探索共享工作空间中的人机协同

AI，掌控方向盘：人机协作问答中委托与信任的驱动因素

不完全合作的人-AI交互：模拟与用户研究中人类和AI属性影响的比较

超越自主性：了解自身局限的智能体之力量

我给6个AI模型设置了一个挑战，它们只有通过合作才能获胜。它们自行寻找盟友，私下达成交易，最终分成三个竞争团队——其中两个是因为没有其他人愿意接纳而结成一对。

提交意见反馈