评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

arXiv cs.CL 2026/06/17 04:00 论文

large-language-models multimodal turn-taking multi-party-conversation meetings speaker-prediction evaluation

摘要

本文评估了大语言模型（LLMs）和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明，基于文本的LLMs在下一说话人预测上优于监督模型和人类，而多模态LLMs在其他任务上比纯文本模型有所提升，但表现仍低于人类。

arXiv:2606.17542v1 公告类型：新摘要：我们利用大语言模型（LLMs）研究多模态多方对话中的话轮转换。我们构建了一个评估框架，涵盖三项任务：收件人检测、话轮转换预测和下一说话人预测。我们比较了针对这些任务训练的监督模型、基于文本的LLMs、多模态大语言模型（MM-LLMs）以及人类受试者。在AMI语料库上的实验表明，尽管LLMs未在目标领域训练且无法获取音频或视觉信息，但在下一说话人预测上仍优于监督模型和人类。多模态大语言模型在收件人检测和话轮转换预测上表现优于基于文本的LLMs，但仍低于人类水平，表明其在利用原始音视频信号方面存在困难。消融分析显示，对话上下文至关重要，尤其是在下一说话人预测中。我们观察到人类与LLMs的预测模式相似，且话轮转换频繁的区间对两者而言都较难处理。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:41

# 评估大语言模型在会议中识别说话对象、话轮转换和下一说话者预测的能力
来源：https://arxiv.org/html/2606.17542
作者：Fukuda Kano Arora Delcroix Tawara Ogawa Chiba Ando Chen Watanabe\\CJKencfamilyUTF8mc\\CJK@envStartUTF8

TakatomoSiddhantMarcNaohiroAtsunoriYuyaAtsushiWilliamShinji1NTT, Inc\., 日本，2语言技术研究所，卡内基梅隆大学，美国ryo\.fukuda@ntt\.com (https://arxiv.org/html/2606.17542v1/mailto:[email protected])

###### 摘要

我们利用大语言模型（LLM）研究多模态多方对话中的话轮转换。我们构建了一个评估框架，包含三项任务：说话对象检测、话轮转换预测和下一说话者预测。我们比较了针对这些任务训练的监督模型、基于文本的 LLM、多模态 LLM（MM-LLM）以及人类被试。在 AMI 语料库上的实验表明，尽管 LLM 未在目标领域进行训练，也无法获取音频或视觉信息，但它们在下一说话者预测方面优于监督模型和人类。MM-LLM 在说话对象检测和话轮转换预测上表现优于基于文本的 LLM，但仍低于人类水平，表明其难以有效利用原始音视频信号。消融分析显示，会话上下文至关重要，尤其对于下一说话者预测。我们观察到人类和 LLM 的预测模式相似，频繁发生话轮转换的时间段对两者都具有挑战性。

###### 关键词：

话轮转换建模，多方对话，多模态语音处理，会话上下文

## 1 引言

大语言模型 (LLM) 的进步显著提升了对话智能体理解和生成自然语言的能力。随着能够处理音频和视觉输入（除文本外）的多模态 LLM (MM-LLM) 的出现，整合语言和非语言信息来理解非言语交流成为可能。这些发展增加了对能够参与人类多方对话 (MPC) 的系统的兴趣，例如会议助手和协作智能体，正如多个 MPC 语料库中所研究的那样。

参与 MPC 的对话智能体需要理解话轮转换行为，这比双人交互中的行为更为复杂。在双人对话中，理解话轮转换仅需检测说话者变化，因为当前话语的说话对象和下一说话者是不言而喻的（即对话对方）。相比之下，MPC 涉及多个潜在说话对象和多个潜在的下一说话者。一个话语可能指向特定个人、若干参与者或整个群体。因此，成功参与需要推断谁被说话对象，以及话轮是否会转移以及转移给谁。未能适当管理话轮转换可能导致长时间的停顿或不当打断，严重破坏交流的流畅性。

以往研究广泛探讨了双人对话中的话轮转换，近期也考察了 LLM 和音频基础模型的话轮转换能力。相比之下，MPC 中的话轮转换受到的关注较少，尽管近年来兴趣有所增长。在 MPC 中，话轮转换通过单独的任务进行研究，例如说话对象检测、话轮转换预测和下一说话者预测。这些任务已被证明受益于多模态信息。例如，凝视等视觉线索有助于说话对象检测和下一说话者预测，而韵律特征为话轮转换预测提供线索。早期工作主要采用监督模型，如条件随机场、支持向量机 (SVM) 和深度神经网络，通常结合文本特征与音视频信号。最近，基于 LLM 的方法也得到了探索。一些研究评估了基于文本的 LLM 执行说话对象检测和下一说话者预测的能力。此外，还研究了将凝视或图像等视觉信息整合到文本型和多模态 LLM 中的效果。

尽管有这些努力，仍存在三个局限性。首先，目前尚不清楚 MM-LLM 在多大程度上能够直接通过原始音视频信号执行这些任务。尽管这类模型接受多模态输入，但它们能否有效利用这些信号进行 MPC 中的话轮转换预测尚未得到系统检验。其次，在统一的实验协议下，对不同建模范式（例如针对这些任务训练的监督模型、基于文本的 LLM 和 MM-LLM）进行全面评估的研究十分有限。第三，也是最重要的一点，在可比的多模态条件下，人类在这些任务上的表现尚未得到充分量化。理解这些任务对于人类的固有难度及其影响因素，对于开发接近人类行为的对话智能体至关重要。

表1：用于多方对话话轮转换的基于 LLM 的方法。在本研究中，我们通过在一个统一框架内评估说话对象检测、话轮转换预测和下一说话者预测来应对这些局限性。模型和人类都仅利用过去和当前的会话信息来处理每项任务，这反映了实时会话的约束条件。我们使用 AMI 会议语料库，该语料库包含由四位英语说话者参与的会议中的自然 MPC。该语料库提供同步的音频、视频和人工转录，以及说话对象和注意力焦点 (FOA) 标签等标注，适合我们的实验。我们比较了三类模型：监督模型、基于文本的 LLM 和 MM-LLM。作为监督基线，我们实现了四种传统模型。对于基于文本的 LLM，我们评估了 Qwen3 的三种变体。对于 MM-LLM，我们考察了 Qwen-Omni 模型和 Gemini 2.5 Pro。此外，我们在可比的多模态设置下进行了人类评估，以直接比较人类和模型。

评估揭示了几个关键发现。

- •首先，人类在这些任务上的表现并不特别高。1例如，在下一说话者预测中，有四个可能的候选，F1分数约为60%。这表明，即使是人类，也很难预测 MPC 中的话轮转换。
- •其次，基于文本的 LLM 在下一说话者预测上优于人类被试和监督模型。我们确认会话上下文对此任务至关重要，这与先前的研究结果一致。
- •第三，在 MM-LLM 中，Gemini 2.5 Pro 在说话对象检测和话轮转换预测上取得了比基于文本的 LLM 更高的性能，但仍然低于人类表现。我们的分析表明，当前的 MM-LLM 在有效利用原始音视频信号进行话轮转换预测方面仍面临困难。
- •最后，我们观察到人类和 LLM 的预测倾向大致相似。对人类来说困难的时间段，对 LLM 通常也困难。特别是，说话者变化频繁且参与者发言更均衡的片段更难预测。

## 2 相关工作

### 2.1 LLM 评估

近年来有几项研究考察了 LLM 理解 MPC 中话轮转换的能力（表1）。Inoue 等人构建了一个用于三方对话的说话对象检测和下一说话者预测的基准。他们报告说，使用真实转录时 LLM 的性能接近随机水平，并且加入凝视信息并未显著提高性能。Hilgert 和 Niehues 使用多个 MPC 数据集评估了基于文本的 LLM 在下一说话者预测上的表现。他们的结果表明，一些模型优于人类被试，并强调了会话上下文对于预测下一说话者的重要性。Mori 等人利用 TEIDAN 数据集，使用带有文本和图像输入的 MM-LLM 研究了下一说话者预测。他们发现加入视觉信息并未带来明显的性能提升，这表明当前模型利用视觉线索完成此任务的能力可能有限。Chang 等人探讨了 MM-LLM 是否能够从音频和视频信号中理解会话结构。利用一个电视剧对话数据集，他们评估了模型在话语相关属性（如说话对象预测）上的表现。然而，他们的评估假设了一个离线场景，即整个对话都是可用的，这与在线预测场景不同。

尽管这些研究表明对基于 LLM 的 MPC 理解方法越来越感兴趣，但大多数研究关注单一的话轮转换任务或依赖有限的模态。此外，不同模型类型之间的系统比较仍然有限。相比之下，我们的研究聚焦于一个在线场景，模拟一个参与会议的智能体，在不访问未来信息的情况下预测对话动态。此外，我们跨多句话轮转换任务比较了基于文本的 LLM 和 MM-LLM。

### 2.2 人类表现

已有几项研究探索了人类在相关话轮转换任务上的表现。AMI 语料库包含由训练有素的标注员仔细制作的说话对象标注，这些标注员可以访问整个对话，并受对话行为信息指导。这些标注的标注员间一致性被报告为中等水平，表明说话对象识别本身具有模糊性。然而，在自然对话中，参与者直观地推断说话对象，并不明确参考对话行为定义。这种在线人类判断与标注的一致程度尚不清楚。

人类预测话轮转换的能力也得到研究。De Ruiter 等人报告说，听话者大约在当前说话者说完前200毫秒预测话轮结束。Casillas 和 Frank 发现，即使是1-2岁的儿童也能通过整合词汇和韵律线索预测话轮转换。然而，他们的实验仅限于双人对话，并未量化话语级别的预测准确性。Hilgert 和 Niehues 评估了人类在 MPC 中预测下一说话者的表现，但他们的评估仅依赖于文本信息。这种设置可能会低估人类在可获得凝视和韵律等多模态线索的自然对话中的表现。

据我们所知，先前没有研究在多模态和在线设置下，定量评估人类在 MPC 中的说话对象检测、话轮转换预测和下一说话者预测上的表现。我们的研究首次在这些任务上对人和模型进行了统一比较，从而能够直接评估它们的相对性能。

## 3 任务定义

在本研究中，我们通过三项任务评估 MPC 中的话轮转换预测：(1)说话对象检测，(2)话轮转换预测，以及(3)下一说话者预测。除了评估模型，我们还测量人类在这些任务上的表现，以明确人类与当前模型之间的差距。

在我们的实验中，系统仅执行两项任务：(1)话语级别的说话对象检测和(2)下一说话者预测，话轮转换标签可以直接从后者推导出来。这种公式简化了预测过程，同时能够评估话轮转换的不同方面。

### 3.1 说话对象检测

令一个对话表示为N个话语的序列。每个话语ui与说话者ID si∈P、转录ti、话语级别音频段ai和话语级别视频段vi相关联，其中P表示参与者集合且|P|=K。在我们使用 AMI 语料库的实验中，K=4。在时间步i，目标是预测当前话语ui的说话对象标签yi∈P∪{Group,None}。Group表示多个参与者，None表示该话语不针对任何特定参与者。说话对象检测根据(si,ti,ai,vi,ci)预测yi，其中ci是从前面话语中推导出的会话上下文。会话上下文ci的形式取决于系统（见第4.2节）。

为了评估，我们报告分类准确率 (Acc)。为了考虑类别不平衡，我们额外报告所有类别的宏平均 F1 分数 (F1ma)。

### 3.2 话轮转换与下一说话者预测

我们考虑两个紧密相关的任务：话轮转换预测和下一说话者预测。这两个任务都基于预测在每个话语ui之后谁会立即发言来定义。模型和人类根据当前输入 (si,ti,ai,vi,ci) 预测一个可能多值的下一说话者候选集合Ŝi+1⊆P。话轮转换预测：话轮转换预测的任务是预测下一个话语的说话者是否会改变。我们定义真实话轮转换标签ri为

ri={Hold 如果 si+1=si,Shift 其他情况.预测标签由 Ŝi+1 推导为

r̂i={Hold 如果 Ŝi+1={si},Shift 其他情况.只有当预测集合仅包含当前说话者时，才预测为 Hold。对于话轮转换预测，我们报告两个类别的 Acc 和 F1ma。下一说话者预测：下一说话者预测仅在发生说话者变化的话轮（ri=Shift）上进行评估。我们报告一个严格准确率，只有当预测集合恰好包含一个说话者且它

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

相似文章

大型语言模型有多像人类？一个关注语域的语言评估框架

大型语言模型能否模仿人类语音进行临床评估？基于LLM的数据增强方法用于认知评分预测

适应是双向的：研究人类与语言模型之间的语言趋同

超小型LLM真的有用吗？

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

提交意见反馈