AgentViSS:多模态仿真中的视觉社交智能基准测试

arXiv cs.CL 论文

摘要

本文介绍了AgentViSS基准,用于评估多模态社交模拟中的视觉社交智能,包含240个场景及对齐的视觉文本证据。评估七个近期MLLM发现局部角色扮演与基于视觉的交互管理之间存在差距。

arXiv:2606.15152v1 公告类型: 新 摘要:社交互动依赖于语言和可见的社交信号,如面部表情、姿势、目光和情绪变化。然而,现有的社交代理基准主要基于文本,很少测试多模态代理能否利用视觉线索引导交互。我们引入了\textsc{\benchmarkname{}},一个评估多模态社交模拟中视觉社交智能的基准。它包含240个场景、585个角色实例和2,340个角色任务实例,结合了对齐的文本-视觉证据、结构化的角色轮廓以及四个级别的角色任务:表达任务、特征任务、交互调节任务和交互结果任务。在口述视觉和直接视觉条件下评估七个近期MLLM,发现局部角色扮演与交互管理之间存在明显差距:角色特定表达和冲突处理接近饱和,而交互调节和基于视觉的结果实现仍然困难得多。代码发布在https://github.com/JunsWan/AgentViSS,数据集可在https://huggingface.co/datasets/JunsWan/AgentViSS获取。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:45

# 智能体能否读懂氛围?多模态仿真中的视觉社交智能基准测试  
来源:https://arxiv.org/html/2606.15152  

Shijun Wan1,\*Xuehai Wu1,\*Jiwen Zhang1 Siyuan Wang3,†\\dagger Zhongyu Wei1,2,†\\dagger  
1复旦大学  
2上海创新研究院  
3香港中文大学  
\{sjwan25,xhwu25,jiwenzhang21\}@m\.fudan\.edu\.cn siyuanwang@cuhk\.edu\.hk zywei@fudan\.edu\.cn  

###### 摘要  
社交互动不仅依赖语言,也依赖可见的社交信号,如面部表情、姿势、目光和情绪变化。然而,现有的社交智能体基准大多基于文本,很少测试多模态智能体是否能够利用视觉线索来引导互动。我们提出了**AgentViSS**,一个评估多模态社交模拟中视觉社交智能的基准。它包含240个场景、585个角色实例和2,340个角色-任务实例,结合了对齐的文本-视觉证据、结构化角色档案以及四个角色级任务:表达任务、特征任务、互动调节任务和互动结果任务。评估了七种最新的多模态大语言模型(MLLMs)在言语化视觉和直接视觉模式下的表现,发现局部角色扮演和互动管理之间存在明显差距:特定角色的表达和冲突处理已接近饱和,而互动调节和基于视觉的结果达成仍然困难得多。代码已发布在https://github.com/JunsWan/AgentViSS,数据集可在https://huggingface.co/datasets/JunsWan/AgentViSS获取。  

**智能体能否读懂氛围?多模态仿真中的视觉社交智能基准测试**  
††脚注:\*同等贡献。†\\dagger通讯作者。  

## 1 引言  
大语言模型(LLMs)正在重塑我们研究社交行为的方式。多轮LLM智能体能够在开放场景中进行谈判、说服和维护关系(Zhou et al., 2024 (https://arxiv.org/html/2606.15152#bib.bib43); Mou et al., 2025 (https://arxiv.org/html/2606.15152#bib.bib13)),为社会科学研究提供可扩展的测试平台,并为虚拟同伴、训练伙伴和基于屏幕的社交角色奠定基础。然而,真实的社交互动很少仅依赖文本:人们通过面部表情、姿势、目光和可见的情绪变化来解读话语,尤其是在言语与可见行为不一致时,例如口头同意、否认或轻描淡写伴随着目光回避、紧张姿势或明显的不适(Hess, 2016 (https://arxiv.org/html/2606.15152#bib.bib8); Rimé, 1982 (https://arxiv.org/html/2606.15152#bib.bib27); Vinciarelli et al., 2009 (https://arxiv.org/html/2606.15152#bib.bib34))。因此,将社交模拟扩展到多模态场景既自然又必要,并提出了一个具体的开放问题:当前的多模态智能体能否利用视觉社交线索做出适当的互动决策?  

参考图注  
图1:AgentViSS中的一个代表性案例。Chandler口头上声称自己没事,但他的面部表情和姿势却暴露了低落的情绪。Monica读取了这些视觉线索并给予了支持性的回应,说明了非语言证据如何在语言无法捕捉的情况下驱动互动调节。  

然而,现有的社交模拟基准大多仍基于文本,在三个方面存在不足。首先,纯文本环境无法再现塑造真实世界互动的可见线索,导致智能体在感知和回应这些信号方面未经测试(Zhou et al., 2024 (https://arxiv.org/html/2606.15152#bib.bib43); Mou et al., 2025 (https://arxiv.org/html/2606.15152#bib.bib13); Wang et al., 2024a (https://arxiv.org/html/2606.15152#bib.bib36))。其次,场景很少捕捉日常社交情境的复杂性,例如人际冲突、信息不对称或策略性地间接表达。第三,评估通常简化为是否达成顶层目标,很少关注智能体是否维持自身的角色状态或跟踪其他参与者不断变化的状态(Chen et al., 2024 (https://arxiv.org/html/2606.15152#bib.bib5); Tu et al., 2024 (https://arxiv.org/html/2606.15152#bib.bib32); Budagam, 2024 (https://arxiv.org/html/2606.15152#bib.bib4))。  

为了解决这些挑战,我们引入了**AgentViSS**,一个多模态社交模拟基准。为了超越纯文本模拟,我们根据电视剧《老友记》中的社交场景构建每个场景,并配备群组图像和随互动展开而更新的角色专属肖像。为了建模社交复杂情境,每个角色被分配一个结构化档案,包含两个互动层面属性:**表达风格**,指定角色在对话中如何管理信息(McCornack, 1992 (https://arxiv.org/html/2606.15152#bib.bib12));以及**冲突特征**,描述角色处理冲突的立场(Thomas, 1992 (https://arxiv.org/html/2606.15152#bib.bib30))。这些属性共同为同一模拟中的角色分配不同的信息管理策略和冲突处理立场,提供了一种可控的方式构建社交复杂的模拟。结合可见的情感状态,它们还能捕捉言语与视觉线索不一致的情况。为了支持超越单一目标目的的评估,我们定义了四个角色级任务维度。具体来说,**表达任务**和**特征任务**衡量智能体是否在整个互动过程中保持其指定的表达风格和冲突处理立场。**互动调节任务**评估其对他人不断变化的语言和非语言信号的适应能力。**互动结果任务**评估其预期社交结果是否最终达成。每个任务维度基于受BDI启发的目标表示(Bratman, 1987 (https://arxiv.org/html/2606.15152#bib.bib3); Rao and George, 1995 (https://arxiv.org/html/2606.15152#bib.bib24)),指定角色的信念、期望状态和预期策略,确保任务反映情境化的动机而非抽象目标。  

实例化这一设计,AgentViSS包含240个场景、585个角色和2,340个角色任务,涵盖四种对话类型:说服(78个)、商议(58个)、信息寻求(56个)和争论(48个)。每个场景通过多轮模拟在两种视觉观察模式下评估:**言语化视觉(VV)**,智能体先将图像转换为文本描述;以及**直接视觉(DV)**,智能体直接消费图像。我们进一步将两种模式与纯文本基线进行比较,以检验视觉证据的必要性。图1 (https://arxiv.org/html/2606.15152#S1.F1)展示了AgentViSS中的一个代表性案例,其中可见情感与口头信息相矛盾,并引导了社交上适当的调节回应。  

利用AgentViSS,我们评估了七种多模态大语言模型(MLLMs),涵盖不同模型规模以及开源和闭源系列。我们发现,在所有设置下局部角色扮演已接近饱和,而互动管理则更具区分性。尽管VV在互动调节任务上大幅优于DV,但仅靠直接图像访问并不能确保模型将视觉线索转化为决策相关的社交状态,这表明存在感知到决策的整合瓶颈。这一困难也延伸到了互动结果:成功依赖于具体可见状态的任务比主要通过对话和推理可完成的任务更难。同时,与纯文本基线的比较表明,视觉证据提供了文本背景之外的额外社交信息。最后,场景层面的分析表明,互动管理的难度进一步随对话结构和群体规模而变化。更广泛地说,当前MLLMs在基于视觉的互动管理任务上仍然薄弱,这些任务的成功需要跟踪其他参与者的语言和非语言状态,并实现社交上适当的结果。  

## 2 AgentViSS基准  
参考图注  
图2:场景资产构建流程。从剧本衍生的社交场景与字幕时间戳视频片段对齐,我们通过视觉选择和角色匹配从中选择群组图像和角色肖像。接地后的场景资产将场景描述、参与者和视觉证据链接到同一源事件。  

AgentViSS是一个多模态社交模拟基准,用于评估模型在多智能体交互中的表现。它包含240个从电视剧《老友记》第一季原始剧本中提取的模拟上下文,每个上下文与相应的视频片段对齐。每个模拟上下文提供五种信息:  
- **视觉证据**(\(G, P_1\)):一个固定的群组图像\(G\)捕捉人际布局,以及一组初始角色肖像\(P_1\),可在轮次中更新。  
- **场景描述**(\(d\)):场景的文本描述,包含对话类型和场景级冲突强度。  
- **角色档案**(\(C\)):每个角色的基本属性(性别、年龄、职业)和两个互动层面属性:表达风格和冲突特征。  
- **初始情感状态**(\(Z_1\)):每个角色的初始情绪、面部表情和身体动作。  
- **角色级社交任务**(\(T\)):每个角色的四个任务维度:表达任务、特征任务、互动调节任务和互动结果任务。  

### 2.1 场景资产构建  
本小节描述如何为每个模拟上下文构建源接地资产,包括视觉证据(\(G, P_1\))和场景描述\(d\)。如图2所示,构建分三个阶段进行。  

#### 场景接地。  
每个候选场景从指定参与角色、对话和局部故事背景的剧本片段开始。我们将剧本解析为场景级单元,并通过字幕时间戳将每个单元与相应剧集视频对齐。由于剧本和字幕在用词或分段上可能不同,我们结合基于角色话语的词汇匹配和基于周围对话上下文的语义匹配,定位最佳匹配的字幕跨度。得到的时间戳定义了一个接地视频片段,其中文本、参与者和视觉上下文指代同一互动。在此阶段,我们使用GPT-5 mini(OpenAI, n.d.a (https://arxiv.org/html/2606.15152#bib.bib15))为每个场景标注对话类型(包括信息寻求、商议、说服和争论)以及参与角色的基本属性(包括性别、年龄和职业)。这些标注支持角色匹配和后续视觉选择。  

#### 视觉证据选择。  
给定接地视频片段,我们提取候选帧并选择一个源群组帧,捕捉人际布局和共同在场的角色。我们使用GPT-image-1(OpenAI, n.d.b (https://arxiv.org/html/2606.15152#bib.bib16))将该帧转换为风格化的合成群组图像\(G\)。然后在\(G\)内应用人物检测和角色参考匹配,将检测到的人物与相应角色关联,并从匹配的角色区域生成正面化的合成角色肖像\(P_1\)。得到的合成群组图像\(G\)和初始角色肖像\(P_1\)构成模拟器使用的视觉证据,其中角色肖像将在后续对话轮次中更新。  

#### 场景描述构建。  
基于接地剧本片段和视觉证据,我们使用GPT-5.4(OpenAI, 2026 (https://arxiv.org/html/2606.15152#bib.bib14))生成场景描述,确保与叙事背景和视觉证据一致。  

### 2.2 结构化角色与任务设计  
对于每个模拟上下文,AgentViSS为参与角色增加结构化角色档案(\(C\))、初始情感状态(\(Z_1\))和角色级社交任务(\(T\))。  

#### 结构化角色档案。  
每个角色关联三个基本属性:性别、年龄和职业。我们进一步为每个角色分配两个互动层面属性:**表达风格**和**冲突特征**,分别借鉴信息操纵理论(McCornack, 1992 (https://arxiv.org/html/2606.15152#bib.bib12))和冲突管理文献(Thomas, 1992 (https://arxiv.org/html/2606.15152#bib.bib30))。表达风格描述角色在对话中如何管理信息,实例化为五种类型之一:诚实信号、策略性隐瞒、欺骗、夸张和抑制。冲突特征描述角色如何应对冲突,实例化为五种类型之一:竞争、合作、妥协、回避和迁就。两个互动层面属性的详细定义见附录A (https://arxiv.org/html/2606.15152#A1)。场景级冲突强度源自竞争角色的存在和比例:当所有角色均为竞争型时为高,竞争型与非竞争型角色共存时为中,没有竞争型角色时为低。  

#### 初始情感状态。  
根据场景描述、角色档案和角色肖像,我们使用GPT-5 mini为每个角色生成初始情感状态,包括情绪、面部表情和身体动作。该情感状态作为模拟的起点。  

#### 角色级社交任务设计。  
我们构建四个角色级社交任务维度,以超越单一目标目的评估社交互动。这些维度分为两个方面:  
- **角色扮演任务**。这些任务测试角色是否按照其分配属性行事。**表达任务(Expr.)** 测试角色是否按其表达风格管理信息;**特征任务(Char.)** 测试其冲突特征是否塑造了其在社交情境中的行为。  
- **互动管理任务**。这些任务测试角色是否能够回应他人并引导互动。**互动调节任务(Int.-Reg.)** 测试角色是否调整以适应他人的语言和非语言信号;**互动结果任务(Int.-Out.)** 测试其是否达到应实现的具体社交结果。  

为确保这些任务反映情境化的角色动机而非抽象目标,我们将其构建基于角色特定的**BDI-Risk**规范。我们首先用BDI结构表示每个角色的社交目标,该结构指定角色对当前情境的信念、期望的社交或信息状态以及互动中的预期策略(Bratman, 1987 (https://arxiv.org/html/2606.15152#bib.bib3); Rao and George, 1995 (https://arxiv.org/html/2606.15152#bib.bib24));基于BDI的表示在先前工作中也被用于建模智能体任务、可解释规划和模拟中类人行为(Wadsley and Ryan, 2013 (https://arxiv.org/html/2606.15152#bib.bib35); Jang et al., 2023 (https://arxiv.org/html/2606.15152#bib.bib9); Adam and Gaudou, 2016 (https://arxiv.org/html/2606.15152#bib.bib1))。由于标准BDI并未显式编码当期望状态未达成时社交上存在什么风险,我们进一步增加了**失败风险**。这一扩展受到风险感知BDI规划的启发,认为...

相似文章

代理技能应超越纯文本:视觉技能的必要性

Hugging Face Daily Papers

本文认为代理技能应包含视觉信息,而不仅仅是文本,并提出了一种多模态技能范式,将文本逻辑与视觉支持相结合。实验表明,在视觉中心任务中,视觉技能优于纯文本方法。

VISUALSKILL:面向计算机使用智能体的多模态技能

arXiv cs.CL

VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。

MMSkills:面向通用视觉智能体的多模态技能

arXiv cs.AI

本文介绍了MMSkills,这是一个用于表示、生成和使用视觉智能体多模态程序性知识的框架,结合了文本程序与视觉状态卡和关键帧,并在GUI和游戏类视觉智能体基准测试中展示了改进效果。