迈向定制化的多模态角色扮演

arXiv cs.LG 2026/05/12 04:00 论文

摘要

本文介绍了 UniCharacter，这是一个用于定制化多模态角色扮演（CMRP）的两阶段训练框架，能够对人设、对话风格和视觉身份进行统一的定制。该研究提出了 RoleScape-20 数据集，并证明了该模型仅需极少数据即可实现连贯的跨模态生成。

arXiv:2605.08129v1 公告类型：新文章摘要：统一的多模态理解与生成模型能够实现更丰富的人机交互。然而，如何在保持跨模态输出一致性的同时，联合定制角色的人设、对话风格和视觉身份，这一领域仍 largely 未被探索。为了弥补这一差距，我们引入了一项新任务：定制化多模态角色扮演（CMRP）。我们构建了 RoleScape-20 数据集，包含 20 个角色，涵盖涵盖人设、风格描述、视觉/表情线索以及图文交互的训练和评估数据。基于统一模型，我们设计了 UniCharacter，这是一个两阶段训练框架，包含统一监督微调（Unified-SFT）和角色特定组相对策略优化（Character-GRPO）。在仅提供 10 张图像及相应交互示例的情况下，模型便能习得目标角色特征，并在生成的文本和图像中展现出连贯的人设、风格和视觉身份。该过程大约需要 100 个 GPU 小时。在 RoleScape-20 数据集上的实验表明，所提方法显著优于先前方法。消融研究进一步验证了我们跨模态一致性设计和少样本定制策略的有效性。我们认为，结合统一建模的 CMRP 为下一代具有角色特征和沉浸式体验的交互智能体奠定了基础。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:46

# 迈向定制化多模态角色扮演

**来源**: https://arxiv.org/html/2605.08129
**作者**: Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong

## 摘要

统一的多模态理解与生成模型实现了更丰富的人机交互。然而，如何在保持跨模态输出一致性的同时，联合定制角色的个性、对话风格和视觉身份，仍 largely 未得到探索。为了弥合这一差距，我们引入了一个新任务：**定制化多模态角色扮演 (Customized Multimodal Role-Play, CMRP)**。我们构建了 **RoleScape-20** 数据集，包含 20 个角色，涵盖训练和评估数据，包括个性描述、风格描述、视觉/表情提示以及文本-图像交互。基于统一模型，我们设计了 **UniCharacter**，这是一个两阶段训练框架，包含**统一监督微调 (Unified-SFT)** 和**角色特定的组相对策略优化 (Character-GRPO)**。仅需 10 张图片及对应的交互示例，模型即可习得目标角色，并在生成的文本和图像中表现出连贯的个性、风格和视觉身份。该过程耗时约 100 个 GPU 小时。在 RoleScape-20 数据集上的实验表明，所提方法显著优于先前方法。消融研究进一步验证了我们跨模态一致性设计和少样本定制策略的有效性。我们认为，CMRP 结合统一建模为下一代具有个性化特征和沉浸式交互的智能体奠定了基础。我们的数据集和代码将在以下地址发布：https://github.com/Tangc03/UniCharacter

**关键词**: 机器学习, ICML

![Uncaptioned image](https://arxiv.org/html/2605.08129v1/x1.png)
**图 1**: UniCharacter 模型能力的演示。该模型利用角色档案在多个集成任务中保持一致性。核心创新展示在多模态角色扮演中，模型同时生成连贯的文本响应和反映角色情绪的相应视觉图像。这种统一生成辅以模型执行文本到图像 (T2I) 生成、知识问答 (Knowledge QA) 和视觉问答 (VQA) 的能力。这些功能共同突显了 UniCharacter 在单一框架内创建连贯、交互式且具身化的视觉化人格的能力。

## 1 引言

个性化虚拟角色越来越多地用于数字化身、互动娱乐和人机通信中。现有系统通常仅在**单模态**下运行。基于文本的模型 (Wang et al., 2023; Shao et al., 2023; Nguyen et al., 2024) 可以进行个性化对齐的角色扮演，但无法生成视觉内容。图像个性化方法 (Ruiz et al., 2022; Ga et al., 2022; Zeng et al., 2024) 可以重现角色的外观，但无法参与对话或对上下文线索做出反应。目前的方法只能定制角色说话或外观的方式，而不能同时定制两者。

最近出现的统一多模态基础模型 (Chen et al., 2025b; Deng et al., 2025; Yang et al., 2025; Xie et al., 2024) 为弥合这一差距提供了有前景的途径。这些模型在单一架构中处理和生成文本及图像，并且已经展现出强大的跨模态理解和生成能力。它们可以支持既具有语言表达力又具有视觉创造力的虚拟角色。然而，这些模型的当前案例 (An et al., 2025; Nguyen et al., 2025) 侧重于视觉问答 (VQA)、图像字幕或通用文本到图像生成等任务。没有任何一个针对需要一致的语言风格、情感表达和视觉身份的人格驱动交互。忽视跨模态的身份一致性会阻碍模型有效构建完整的多模态角色。这也是在角色扮演场景中实现更具沉浸感的用户-角色交互的关键基础，具有巨大的应用潜力。

为了应对这一差距，我们引入了**定制化多模态角色扮演 (CMRP)**，这是一个利用极少角色特定数据（文本档案、少量参考图像和示例对话）将通用多模态模型适配为虚拟角色的任务，以便在具有稳定个性和视觉身份的交互式角色扮演中生成符合角色设定的响应和外观一致的图像。

为了促进 CMRP，我们引入了 **RoleScape-20**，这是第一个多模态角色扮演数据集。它包含 20 个多样化的角色，每个角色都有文本档案、5-15 张参考图像和 150-250 段角色扮演对话。我们还提供了细粒度的多模态注释，包括明确的思维过程、图像生成指令以及配对的视觉或基于知识的问答样本。这些组件支持对个性、语言和视觉身份的统一建模。

基于该数据集，我们提出了 **UniCharacter**，一个通过两阶段管道将统一多模态模型适配为连贯多模态角色扮演的框架。第一阶段对所有任务执行**统一监督微调 (Unified-SFT)**。然而，图像生成 SFT 依赖于真实图像，这限制了扩展性并导致过拟合和低输出多样性。因此，第二阶段引入了**角色组相对策略优化 (Character-GRPO)** 用于文本到图像 (T2I) 生成，希望其基于组的采样管道能够鼓励模型探索多样化的视觉表示，且其训练数据需求无需真实图像，从而进一步扩展图像生成场景的多样性。我们将 GRPO 训练应用于 T2I 生成任务。通过使用文本-图像对齐、组多样性的奖励以及对与训练图像相似度的惩罚，我们的 Character-GRPO 训练阶段有效增强了图像生成任务中模型输出的多样性。

大量实验表明，UniCharacter 在角色一致性、对话真实性、图像保真度和跨模态对齐方面超越了竞争性基线（例如 UniCTokens (An et al., 2025), DreamBooth (Ruiz et al., 2022), Qwen2.5-VL (Bai et al., 2025)），推动了连贯、栩栩如生的虚拟智能体的创建。**表 1** 总结了 UniCharacter 与近期工作的差异，我们的贡献如下：

- 我们引入了 CMRP，这是一种整合文本角色扮演和多模态个性化的多模态角色扮演新任务，以及 RoleScape-20，这是第一个专为多模态角色扮演设计的数据集。
- 我们提出了 UniCharacter，这是一个包含 Unified-SFT 和 Character-GRPO 的两阶段框架，用于少样本视觉-语言对齐。Character-GRPO 采用奖励机制来缓解 T2I 过拟合同时保持文本-图像一致性。
- 大量实验表明，我们的方法在角色一致性、对话质量、图像保真度和跨模态对齐方面优于基线。

**表 1**: UniCharacter 与近期工作的比较。

| 方法 | 文本角色扮演 | 多模态角色扮演 | T2I 生成 | 知识 QA | VQA | 角色一致性 |
| :--- | :---: | :---: | :---: | :---: | :---: | :---: |
| CharacterLLM (Shao et al., 2023) | ✓ | ✗ | ✗ | ✓ | ✗ | - |
| DreamBooth (Ruiz et al., 2022) | ✗ | ✗ | ✓ | ✗ | ✗ | - |
| Yo’LLaVA (Nguyen et al., 2024) | ✗ | ✗ | ✗ | ✗ | ✓ | - |
| MyVLM (Alaluf et al., 2024) | ✗ | ✗ | ✗ | ✗ | ✓ | - |
| Yo’Chameleon (Nguyen et al., 2025) | ✗ | ✗ | ✓ | ✗ | ✓ | - |
| UniCTokens (An et al., 2025) | ✗ | ✗ | ✓ | ✗ | ✓ | - |
| **UniCharacter (Ours)** | **✓** | **✓** | **✓** | **✓** | **✓** | **✓** |

## 2 相关工作

**表 2**: RoleScape-20 与相关数据集的比较。
*Multimodal Role-Play Data* 指配对的视觉-文本角色扮演片段，其中图像描绘角色处于与其对话、情绪状态和个性一致的语境中。*Char* 指角色。*Img* 指图像。

| 数据集 | 模态 | #角色 | #图像/角色 | #对话/角色 | #VQA/角色 | #QA/角色 | 注释: 角色扮演 | 注释: 对话 | 注释: 知识 QA | 注释: VQA | 注释: 角色图像 | 注释: 多模态角色扮演数据 | 注释: 思维过程 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| CharacterLLM (Shao et al., 2023) | 文本 | 9 | - | 1.6K | - | - | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| ChatHaruhi-54K (Li et al., 2023) | 文本 | 32 | - | 1.7K | - | - | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| DreamBooth (Ruiz et al., 2022) | 图像 | 30 | 3-5 | - | - | - | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ | ✗ |
| Yo’LLaVA (Nguyen et al., 2024) | 图像+文本 | 40 | 5-10 | ~4 | - | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ |
| MyVLM (Alaluf et al., 2024) | 图像+文本 | 30 | 10-90 | - | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ |
| UnifyBench (An et al., 2025) | 图像+文本 | 20 | 5-10 | ~200 | - | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ |
| **RoleScape-20 (Ours)** | **图像+文本** | **20** | **5-15** | **150-250** | **~200** | **~100** | **✓** | **✓** | **✓** | **✓** | **✓** | **✓** | **✓** |

**定制化生成**。定制化生成产生遵循用户指定角色的内容，通过文本 (Xu et al., 2024; Wang et al., 2025; Chen et al., 2025a) 或图像 (Ga et al., 2022; Guo et al., 2024; Kumari et al., 2023; Wu et al., 2025b, 2024, 2023) 表示。以前的定制方法大致可分为两类：基于训练的方法 (Ye et al., 2023; Zeng et al., 2024) 和基于微调的方法 (Wang et al., 2023; Shao et al., 2023; Ruiz et al., 2022; Shi et al., 2025b)。基于训练的方法引入额外模块来编码用户输入并指导生成过程。另一方面，基于微调的方法微调部分模型参数以学习用户提供的角色。它们在微调期间使用特殊标记并在推理时插入以实现定制，实现了强大的角色保真度和可控性。然而，现有方法 (Li et al., 2023; Nguyen et al., 2024; An et al., 2024) 仅限于单模态。在推理期间，模型仅通过文本或图像进行定制 (Alaluf et al., 2024; Oh et al., 2025; Hao et al., 2025; Shi et al., 2025c)，难以支持需要两种输出的交互。为此，我们提出了定制化多模态角色扮演，这是一个需要从用户输入中联合生成文本和图像的新任务，并引入了 UniCharacter，这是一种适用于此设置的基于微调的方法。

**定制化统一多模态模型**。统一模型现已整合多模态理解和生成 (Deng et al., 2025; Wu et al., 2025a; Xie et al., 2025; Chen et al., 2025b; Cui et al., 2025; Shi et al., 2025a; Yang et al., 2025)，但连贯的个性化仍然具有挑战性。虽然 Yo’Chameleon (Nguyen et al., 2025) 使用不连续的策略，UniCTokens (An et al., 2025) 解决统一个性化问题，但两者都不支持复杂的交互场景。我们通过一个框架来解决这个问题，该框架联合建模关键维度，包括个性、对话风格、视觉身份和情感。我们的方法将统一模型扩展到复杂的个性化交互，并使智能体具有连贯的个性和跨模态一致性。同时，组相对策略优化 (GRPO) 自 DeepSeek-R1 (Guo et al., 2025) 以来作为一种基于 RL 的微调方法受到关注，相关工作将其适配到统一模型 (Jiang et al., 2025; Mao et al., 2025) 或流匹配图像生成器 (Liu et al., 2025; Zheng et al., 2025)。这些工作基于通用任务和数据集，因此我们通过将 GRPO 纳入统一多模态模型的校正流图像生成分支，并使用针对 CMRP 的定制奖励函数，来 bridging 这些方向，以增加生成多样性的同时保持图像质量和文本-图像对齐。

## 3 RoleScape-20 数据集

![Figure 2: Data Construction Pipeline of RoleScape-20 Dataset.](https://arxiv.org/html/2605.08129v1/x2.png)
**图 2**: RoleScape-20 数据集的数据构建流水线。数据构建流水线处理原始角色材料（对话、图像、档案）生成多样化的训练数据，包括多模态角色扮演对话、T2I 生成对、知识 QA 和 VQA 对。

### 3.1 问题形式化

我们将核心任务定义为**定制化多模态角色扮演 (CMRP)**，旨在开发一个计算智能体，能够基于综合的角色定义忠实地模拟特定的虚拟角色。特定角色由三元组 $C = \{P_{\text{char}}, I_{\text{core}}, D_{\text{ref}}\}$ 定义。$P_{\text{char}}$ 是文本档案，描述角色的个性、背景和特征。$I_{\text{core}}$ 是一组核心参考图像，定义角色的视觉身份。$D_{\text{ref}}$ 是参考对话集合，捕捉角色独特的说话风格和语言习惯。

给定角色定义 $C$ 和用户的文本查询 $Q_u$，CMRP 任务要求模型 $F_\theta$ 生成多模态响应对 $(R_m, I_m)$，必须满足两个关键约束：$R_m$ 必须遵循 $P_{\text{char}}$ 和 $D_{\text{ref}}$ 中定义的个性和说话风格，且 $I_m$ 必须准确描绘 $I_{\text{core}}$ 中指定的角色视觉特征，同时与 $R_m$ 和 $Q_u$ 在上下文上相关。形式上，这种交互表示为：
$$ (R_m, I_m) = F_\theta(Q_u) $$

概念

迈向定制化的多模态角色扮演

相似文章

面向多模态推理的结构化角色感知策略优化

Omni-Persona：对全模态个性化进行系统性基准测试与改进

UniPath: 统一多模态推理中理解与生成的适应性协调

PersonaVLM：长期个性化多模态大语言模型

SalesSim：基准测试并对齐多模态语言模型作为零售用户模拟器

提交意见反馈