DraDDP:一个多模态多方对话话语解析数据集

arXiv cs.CL 论文

摘要

本文介绍了DraDDP,这是首个公开的英文多模态多方对话话语解析数据集,基于美国电视剧构建,包含495个片段、6,374个话语和9.1小时的视频。基准测试表明,多模态信息有助于改善对话结构和关系类型的解析。

arXiv:2606.00012v1 公告类型:新 摘要:多方对话话语解析旨在识别对话中话语之间的依赖结构和关系类型。以往的研究大多局限于文本模态或双方对话,无法满足多模态和多方对话的场景。本文基于美国电视剧构建了首个公开的英文多模态多方对话话语解析数据集DraDDP。DraDDP包含495个对话片段、6,374个话语和9.1小时的并行视频内容,涵盖了丰富的多方交互场景。此外,我们通过在DraDDP上评估该任务并深入分析不同模态的影响,建立了全面的基准。实验结果表明,多模态信息在捕捉对话结构和关系类型方面具有重要价值。我们将公开发布数据集、标注指南和代码,以推动多模态对话理解的未来研究。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:34

# DraDDP:多模态多方对话话语解析数据集  
来源:https://arxiv.org/html/2606.00012  
Shannan Liu, Peifeng Li††感谢:通讯作者, Yaxin Fan, Qiaoming Zhu  
苏州大学计算机科学与技术学院,中国苏州  
20234027002@stu\.suda\.edu\.cn \{pfli, qmzhu\}@suda\.edu\.cn, yxfansuda@stu\.suda\.edu\.cn  

###### 摘要  
多方对话话语解析旨在识别对话中话语之间的依存结构和关系类型。以往研究大多局限于文本模态或双方对话,难以满足多模态和多方场景的需求。本文基于美国电视剧构建了首个公开的英文多模态数据集DraDDP,用于多方对话话语解析。DraDDP包含495个对话片段、6,374条话语以及9.1小时并行视频内容,涵盖了丰富的多方交互场景。此外,我们通过在DraDDP上评估多个对话话语解析模型,并深入分析不同模态的影响,建立了全面的基准。实验结果表明,多模态信息在捕捉对话结构和关系类型方面具有重要价值。我们将公开发布该数据集、标注指南和代码,以促进多模态对话理解的未来研究。111https://github.com/DraDDP DraDDP:多模态多方对话话语解析数据集  
Shannan Liu, Peifeng Li††感谢:通讯作者, Yaxin Fan, Qiaoming Zhu  
苏州大学计算机科学与技术学院,中国苏州  
20234027002@stu\.suda\.edu\.cn \{pfli, qmzhu\}@suda\.edu\.cn, yxfansuda@stu\.suda\.edu\.cn  

参见图1  
图1:多模态对话话语解析示例。  

表1:与现有对话话语解析数据集的比较(T/V/A/I:文本/视频/音频/图像)。  

## 1 引言  
多方对话话语解析旨在识别多方对话中话语之间的依存结构和语义关系类型(例如,*评论*、*背景*和*交替*)。如图1 (https://arxiv.org/html/2606.00012#S0.F1) 所示,该示例包含5条话语,其中弧线表示话语之间的依存结构,弧线上的标签指示话语关系的类型。该任务对于下游应用(如会议摘要Feng等人 (2021 (https://arxiv.org/html/2606.00012#bib.bib10)); Gao等人 (2023 (https://arxiv.org/html/2606.00012#bib.bib12)); Rennard等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib23))、对话生成Fan等人 (2024b (https://arxiv.org/html/2606.00012#bib.bib8)); Li等人 (2024b (https://arxiv.org/html/2606.00012#bib.bib19)) 以及情感识别Zhang等人 (2023 (https://arxiv.org/html/2606.00012#bib.bib28)); Hao等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib14)))具有重要价值。以往关于多方对话话语解析的研究主要集中在两个公开数据集上:STACAsher等人 (2016 (https://arxiv.org/html/2606.00012#bib.bib1)) 和 MolweniLi等人 (2020 (https://arxiv.org/html/2606.00012#bib.bib18))。然而,这些数据集仅考虑文本模态,忽略了现实场景中多模态交互的复杂性和丰富性Zhang等人 (2022 (https://arxiv.org/html/2606.00012#bib.bib29)); Ju等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib16))。如图1 (https://arxiv.org/html/2606.00012#S0.F1) 所示,仅依赖文本模态时,很难理解为什么*Ross*在*Rachel*表达个人情感后会突然提到“绿色”(一个看似无关的回应)。当引入视听模态时,我们观察到*Rachel*处于私人电话场景,而*Ross*正与附近的朋友进行游戏互动,两者处于平行且独立的对话上下文中。这表明多模态信息不仅补充了文本未涵盖的场景细节,还在识别多方对话中的依存结构及确保上下文语义连贯性方面发挥着不可替代的作用。目前,可用于多模态对话话语解析的数据集只有两个:JDDC 2.1Zhao等人 (2022 (https://arxiv.org/html/2606.00012#bib.bib30)) 和 MODDPGong等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib13))。这两个数据集都专注于双方对话且仅支持中文,无法满足多方对话和跨语言研究的需求。与双方对话相比,多方对话涉及多个参与者,结构更为复杂。因此,理解多方对话的话语结构更具价值和挑战性。本文构建了首个用于多方对话话语解析任务的英文多模态数据集DraDDP。DraDDP基于经典美国电视剧(例如,*老友记*)进行标注,涵盖了丰富的多方交互场景和情感表达模式。据我们所知,DraDDP是首个公开的英文多模态多方对话话语解析数据集,为该领域提供了新的研究基准。本文的主要贡献包括:1)构建了首个用于多方对话话语解析的英文多模态数据集DraDDP,包含495个对话片段、6,374条话语和9.1小时并行视频内容,为多模态对话理解研究提供了丰富资源。2)通过在DraDDP上评估多个对话话语解析模型,并进行系统分析以揭示多模态信息对解析性能的影响,建立了全面的基准。  

## 2 相关工作  
### 数据集  
表1 (https://arxiv.org/html/2606.00012#S0.T1) 展示了对话话语解析可用数据集的核心属性。文本数据集包括STACAsher等人 (2016 (https://arxiv.org/html/2606.00012#bib.bib1))、MolweniLi等人 (2020 (https://arxiv.org/html/2606.00012#bib.bib18))、DialogueDSAJiang等人 (2023 (https://arxiv.org/html/2606.00012#bib.bib15)) 和 MSDCThompson等人 (2024b (https://arxiv.org/html/2606.00012#bib.bib25))。值得注意的是,虽然MSDC将文本描述的非语言动作(例如,“拿起蓝色(-1,1,1)”)作为离散符号基本话语单元(EDU)节点,但现实中的非语言信号(例如,面部表情和语调)是连续且时间同步的,具有更高的语义复杂性。目前仅有两个公开的多模态话语解析数据集:JDDC 2.1Zhao等人 (2022 (https://arxiv.org/html/2606.00012#bib.bib30)) 和 MODDPGong等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib13))。尽管JDDC 2.1引入了图像模态,但图像内容相对匮乏且仅限于特定领域。MODDP来源于电视剧对话场景,在模态完整性和场景真实性方面取得了显著改进。然而,这两个多模态数据集仅覆盖双方对话且仅支持中文,难以满足多方对话和跨语言研究的迫切需求。  

### 文本方法  
当前对话话语解析的主流研究主要利用预训练语言模型,通过建模关键对话元素Wang等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib26)); Li等人 (2024a (https://arxiv.org/html/2606.00012#bib.bib17))、注入外部信息Li等人 (2023 (https://arxiv.org/html/2606.00012#bib.bib20)); Ma等人 (2023 (https://arxiv.org/html/2606.00012#bib.bib22)) 或联合学习Xu等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib27)); Fan等人 (2025a (https://arxiv.org/html/2606.00012#bib.bib7)) 等策略来提升解析性能。随着大型语言模型(LLMs)的快速发展,Chan等人 (2023 (https://arxiv.org/html/2606.00012#bib.bib4)) 和 Fan等人 (2024a (https://arxiv.org/html/2606.00012#bib.bib6)) 发现ChatGPT在对话话语解析上表现不佳。Thompson等人 (2024a (https://arxiv.org/html/2606.00012#bib.bib24)) 提出了LLaMIPa(LLaMA增量解析器),通过微调LLaMA3基于历史话语结构实现了增量预测。此外,Liu等人 (2025 (https://arxiv.org/html/2606.00012#bib.bib21)) 和 Fan等人 (2025b (https://arxiv.org/html/2606.00012#bib.bib9)) 通过解释性提示和对话澄清改进了LLMs。然而,这些进展仍局限于纯文本场景。  

### 多模态方法  
目前只有MODDPGong等人 (2024 (https://arxiv.org/html/2606.00012#bib.bib13)) 提供了基本的多模态基准,采用跨模态注意力融合多模态特征。但它仅关注双方中文对话,并未探索多模态大型语言模型(MLLMs)。我们通过构建首个用于多方对话话语解析任务的英文多模态数据集,并对传统方法和MLLM方法进行基准测试,填补了这一空白。  

## 3 数据构建  
### 3.1 数据准备  
DraDDP使用美国电视剧《老友记》(1994年)第一季作为数据来源,覆盖全部24集。这一选择有两个主要优势:1)对话参与者包括6位核心主角和20多位配角,产生了丰富的多模态交互信息,如肢体语言、面部表情和语调;2)对话场景多样,涵盖家庭、咖啡馆和工作场所,主题涉及情感、日常生活、幽默和谈判等多个维度,为话语解析研究提供了代表性的多方交互模式。对于EDU分割,我们基于三个考虑因素将每个官方字幕行作为基本话语单元:字幕行由专业人士制作,长度适中;分割遵循说话者轮次和语义边界,不跨越场景转换;精确的时间戳使得文本、视频帧和音频片段能够准确对齐。  

### 3.2 标注指南  
表1 (https://arxiv.org/html/2606.00012#S0.T1) 中显示的对话数据集均基于分段话语表征理论(SDRT)Asher和Lascarides (2003 (https://arxiv.org/html/2606.00012#bib.bib2)) 构建。SDRT采用有向图结构表示话语单元之间的依存关系,能够有效捕捉对话中的复杂交互模式和动态上下文变化。此外,我们使用了STACAsher等人 (2016 (https://arxiv.org/html/2606.00012#bib.bib1)) 系统中的16个关系标签(详见附录A (https://arxiv.org/html/2606.00012#A1))来区分不同类型的话语关系。该标签系统提供了全面的定义和丰富的标注示例,为标注质量保证提供了可靠保障。  

### 3.3 标注质量控制  
为确保数据集标注质量达到学术标准,我们设计了一个严格的四阶段质量控制体系。整个标注工作由2名博士生和4名硕士生协作完成,他们的研究方向均为对话或话语分析。1)我们引入了预标注机制,以提高数据标注效率并为人工标注提供可靠的初始参考。具体而言,我们使用在STAC数据集上微调的LLaMA3222https://huggingface.co/meta-llama/Meta-Llama-3-8B模型,基于文本模态对所有数据进行了初步话语结构预测(详见§3.4 (https://arxiv.org/html/2606.00012#S3.SS4))。2)标注人员根据模型预测结果共同观看相应视频片段,并协作纠正话语结构。主要目标是建立统一的标注标准,在此过程中协作标注了数据集的1/6。我们系统地整理了标注中遇到的问题,并制定了全面的标注指南,该指南将与数据集一同作为补充材料公开发布。3)每集的数据被随机分配给两名不同的标注人员,独立完成完整的话语结构标注。当两名标注人员的结果完全一致时,直接采用该结果作为最终结果;当存在分歧时,通过集体讨论达成共识,并将相关问题纳入标注指南进行改进。此阶段完成了数据集1/3的标注。4)剩余数据随机分配给两名标注人员进行初步标注,存在分歧的部分由第三名标注人员(一名博士生)裁决。我们使用Fleiss' Kappa系数Fleiss (1971 (https://arxiv.org/html/2606.00012#bib.bib11)) 评估了标注者间的一致性。话语依存结构的Kappa值为0.91,显示出高度一致性,这主要归因于大多数依存结构发生在相邻话语之间,识别相对简单。关系类型的Kappa值为0.60,虽然超过了STAC语料库的0.58,但其相对较低的一致性反映了区分话语关系固有的复杂性和挑战。我们在附录B (https://arxiv.org/html/2606.00012#A2) 中展示了一些具有挑战性的标注案例,进一步说明了标注过程中遇到的困难和复杂性。  

参见图2  
图2:预标注中的错误统计,其中*\{X→\\toY\}*表示将关系X误分类为Y,关系定义见附录A (https://arxiv.org/html/2606.00012#A1)。  

### 3.4 关于LLaMA3的预标注分析  
为了提高标注效率并为人工标注人员提供初始参考,我们采用了预标注机制。具体来说,我们在STAC数据集上微调了LLaMA3模型,基于文本模态对DraDDP进行初步话语结构预测。模型以从对话开始到当前话语的文本序列\{u0,u1,...,ui\}作为输入,输出当前话语ui的依存父节点和关系类型。与最终的人工标注相比,模型在依存结构上的F1分数为72.69%,在关系类型上为41.31%。需要强调的是,预标注结果仅作为参考,并非决定性因素。标注人员主要基于观看视频片段和文本内容独立做出判断。在预标注修正阶段,标注人员平均对每个对话片段的依存结构进行了3.8次修改,对关系类型进行了平均7.4次调整。为了进一步验证预标注没有引入系统性偏差,我们进行了对照实验:选择50个对话样本,两组标注人员独立完成相同的标注任务,其中一组修正预标注,另一组从头开始标注。组间Kappa值在依存结构上达到0.90,在关系类型上达到0.58,与§3.3 (https://arxiv.org/html/2606.00012#S3.SS3) 中报告的整体标注几乎一致。鉴于大约82%的依存关系发生在相邻话语之间,

相似文章