课堂环境下的多模态说话人识别

arXiv cs.CL 2026/06/15 04:00 论文

multimodal speaker-identification classroom acoustic-embeddings llm education k-12

摘要

本文评估了一种用于K-12课堂说话人识别的多模态框架，通过将声学嵌入（ECAPA-TDNN）与基于LLM的转录本语义上下文相结合，将整体准确率从39%提升至50.3%，对于较长话语，准确率从64.9%提升至76.9%。

arXiv:2606.13712v1 类型：交叉 **摘要：** K-12课堂动态的自动化分析面临背景噪声和儿童语音多变性的挑战，这常常使纯声学模型失效。本研究评估了一种将声学嵌入与基于LLM的语义上下文相结合的多模态说话人识别框架。使用EDSI数据集的一个子集（8个数学教室，N = 2,801个话语），我们发现声学基线模型（ECAPA-TDNN）的准确率仅为39.0%。通过将基于转录本的“上下文锚定”集成到梯度提升分类器中，我们的多模态方法将学生识别的准确率提升至50.3%。对于超过5秒的话语，性能也有所提升，准确率达到76.9%（基线为64.9%），Top-3准确率为90.9%。此外，该模型区分教师和学生角色的准确率达到99.3%。这种方法提高了自动化反馈系统的可行性，使其能够考虑个体学生的参与情况，这是在规模化教学过程中支持公平教学的关键一步。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:00

# 课堂环境中的多模态说话人识别
来源: https://arxiv.org/html/2606.13712
Michael Leon Chrzan¹, Meghavarshini Krishnaswamy¹, Robert Gibboni², Katie Wetstone², Wei Ai³, 以及 Jing Liu¹

###### 摘要

对K-12课堂动态进行自动化分析面临着背景噪声和儿童语音多变性的挑战，这些问题常常使纯声学模型失效。本研究评估了一个多模态说话人识别框架，该框架将声学嵌入与基于大语言模型（LLM）的语义语境信息相结合。利用EDSI数据集的子集（8个数学课堂，N=2,801条话语），我们发现声学基线模型（ECAPA-TDNN）仅达到39.0%的准确率。通过将基于转录的“语境锚定”集成到梯度提升分类器中，我们的多模态方法将学生识别准确率提升至50.3%。对于时长超过5秒的话语，性能进一步提升，准确率达到76.9%（基线为64.9%），Top-3准确率达到90.9%。此外，该模型以99.3%的准确率区分教师与学生角色。这种方法提升了构建自动化反馈系统的可行性，该系统能够考虑个体学生的参与情况，这是在规模化层面支持公平教学的关键一步。

## I. 引言

课堂话语的自动化分析已成为教育技术领域的一个关键前沿，有望为教师提供可扩展、客观的反馈，涉及教学质量、学生参与度和参与公平性等方面[28 (https://arxiv.org/html/2606.13712#bib.bib1),6 (https://arxiv.org/html/2606.13712#bib.bib2),7 (https://arxiv.org/html/2606.13712#bib.bib3),9 (https://arxiv.org/html/2606.13712#bib.bib4),5 (https://arxiv.org/html/2606.13712#bib.bib5)]。这项分析的核心任务是说话人识别，旨在回答“谁在何时说话”以及“谁说了什么”这些基本问题[12 (https://arxiv.org/html/2606.13712#bib.bib18)]。尽管传统系统严重依赖声学生物特征，但深度学习和大型语言模型的最新进展表明，转向多模态框架有助于应对K-12课堂独特且不利的声学条件。

课堂环境对传统音频处理构成了一系列严峻挑战：高强度的非平稳背景噪声、显著的混响，以及儿童语音独特且高度变化的频谱特性。纯声学方法在这种环境下常常表现不佳，难以区分目标说话人和同伴讨论中无处不在的“嘈杂声”[23 (https://arxiv.org/html/2606.13712#bib.bib19),28 (https://arxiv.org/html/2606.13712#bib.bib1),25 (https://arxiv.org/html/2606.13712#bib.bib17),15 (https://arxiv.org/html/2606.13712#bib.bib20)]。

虽然声学模型提供了身份的生物特征证据，但我们提出一个额外的LLM说话人推断组件，它引入了基于语音语义内容的证据。文献将此视为一个新兴的“LLM自适应话者分割”领域，其中语言模型被用于根据上下文来纠正、完善和归属说话人轮次[26 (https://arxiv.org/html/2606.13712#bib.bib7),18 (https://arxiv.org/html/2606.13712#bib.bib11),10 (https://arxiv.org/html/2606.13712#bib.bib6)]。本研究正关注于如何将已有的转录作为LLM的输入，以推导出高级风格特征，然后将其与高保真声学嵌入相融合。

我们致力于回答以下问题：与纯声学特征集相比，用富含上下文的文本特征（教师提示和话者标签）来补充音频嵌入，能带来多大的性能提升，特别是在识别非教师说话人方面？为此，我们的研究展示了一个过程，将课堂语音转录中的信息与声学模型相结合，以提高说话人识别性能。

图1: 说话人识别的用途
参考标题

本研究中的说话人识别服务于两个主要目的，如图所示：(1) 为了履行对未同意参与基准数据集构建的学生的法律和伦理责任，我们需要一种方法来识别并匿名化他们的语音数据；(2) 追踪每位学生在整个课堂过程中的表现，以便对课堂发言模式和互动进行详细研究。

## II. 相关工作

说话人身份本质上是一个多模态概念，由两个互补的生物特征元素定义：声学特征和语言特征[14 (https://arxiv.org/html/2606.13712#bib.bib8)]。声学特征与声道的物理和生理特性有关，决定了音高、音色和韵律。相反，语言特征则包含了说话者习得的高级行为习惯，包括句法复杂度、偏好词汇、话语标记语和语用策略。这些语言选择通常被纳入计算社会语言学的研究范畴，是个人教育背景、方言和社会语境的稳定标志。

说话人识别是语音处理中的一项基础任务，对于生物特征认证、取证分析和个性化对话AI系统至关重要[10 (https://arxiv.org/html/2606.13712#bib.bib6),26 (https://arxiv.org/html/2606.13712#bib.bib7)]。历史上该领域由声学信号处理主导，但随着大型语言模型的集成，正经历一场范式转变，使系统能够利用语言上下文以及声音特征。

说话人的身份不仅编码在他们所说的内容（词汇内容）中，还编码在他们如何组织对话和管理社交互动的方式中。LLM具有独特的能力来处理这些复杂、上下文敏感的语言现象。LLM可以通过“语境锚定”来推断身份。如果教师在某个话语中提名了学生姓名（“你怎么看，Jason？”），LLM可以识别该话语的接收者，并预测后续说话人很可能是“Jason”。类似地，如果转录中包含“Smith先生，你能帮我吗？”，那么接收者是Smith先生（教师），说话人很可能是学生，而下一个说话人又很可能是Smith先生。在这两个例子中，被点名的人也可以从潜在说话人列表中排除。这便将问题从无监督聚类转化为半监督追踪，利用命名实体识别来创建“锚点”，从而约束声学聚类算法[19 (https://arxiv.org/html/2606.13712#bib.bib9)]。因此，LLM可以超越简单的语义标注，识别出言语行为的各种功能成分。

近期的研究开始探索多模态方法来解决课堂中的声学挑战。例如，Perez等人（TeachFX）证明，将基于LLM的重新评分与声学聚类相结合，显著改善了教师与学生语音的区分。然而，虽然他们的方法侧重于二元角色分类（教师 vs. 学生），我们的工作则将该多模态框架扩展到细粒度的说话人识别任务。我们利用转录中的“语境锚定”不仅是为了区分角色，更是为了区分不同的学生个体——考虑到同伴说话者之间的声学相似性，这是一项复杂得多的任务[20 (https://arxiv.org/html/2606.13712#bib.bib27)]。

此外，以往的研究表明，自动化反馈在转变课堂实践方面潜力巨大。其潜力在于能够提供可扩展、高效且客观的替代方案，取代传统且资源密集型的教学测量方法。历史上，识别复杂的教学特征或话语策略需要耗时且有时不一致的专家人工分析[6 (https://arxiv.org/html/2606.13712#bib.bib2),18 (https://arxiv.org/html/2606.13712#bib.bib11)]。然而，越来越多的文献表明，自然语言处理技术为教学测量提供了一种变革性的方法。这些工具可以自动分析课堂转录，为教师提供私密、按需的反馈，并且在一些案例中已被证明能够对教师的教学质量和学生成果产生积极影响[6 (https://arxiv.org/html/2606.13712#bib.bib2),5 (https://arxiv.org/html/2606.13712#bib.bib5),8 (https://arxiv.org/html/2606.13712#bib.bib13),7 (https://arxiv.org/html/2606.13712#bib.bib3),17 (https://arxiv.org/html/2606.13712#bib.bib12)]。这种效率使得开发成本效益高、能够快速且频繁提供的反馈系统成为可能。当前及未来反馈的有效性和扩展性的关键在于，既要能准确区分教师与学生的语音，也要能区分不同学生个体。

表 I: 师生发言时间与课堂指标总结
注：s = 秒；平均值列中括号内为标准差。

## III. 数据

本研究使用了教育数据科学与创新中心数据集中的数据，这是马里兰大学帕克分校开发的一个综合性教育数据库[2 (https://arxiv.org/html/2606.13712#bib.bib14)]。EDSI数据集旨在推动人工智能在教育研究和实践中的应用，特别是在数学课堂环境中。它通过整合多模态数据源，提供了课堂动态的整体视图，并通过原始观察数据和结构化元数据的丰富组合而脱颖而出。

该数据集的核心组成部分包括课堂互动的高保真音频和视频记录，以及高质量的转录文本。这些观察数据与广泛的元数据相关联，包括：

- • 人口统计信息：学生和教师特征的详细档案。
- • 课堂制品：座位表等背景材料。
- • 指标：学生成绩数据和来自学生及教师的心理测量调查反馈。

EDSI数据集的数据收集采用多麦克风设置，以捕捉活跃课堂中复杂的听觉环境。音频使用配备五个标记麦克风的Swivl机器人平台进行录制，以同时追踪和录制来自不同声源的音频[24 (https://arxiv.org/html/2606.13712#bib.bib15)]。为了转录目的，这些独立的音频流被合并成一个单一的混合音频文件。然后，该混合文件由TranscribeMe处理，生成高度准确的专业级课堂话语转录，其中包括转录的语音、话语的起始和结束时间，以及话者标签[27 (https://arxiv.org/html/2606.13712#bib.bib16)]。

在本研究中，分析样本包括从更广泛的EDSI语料库中选取的八个不同数学课堂的录音，详见表I (https://arxiv.org/html/2606.13712#S2.T1)。选择这些课堂是因为它们在学生参与度以及基于教学选择（例如，有些老师更倾向于小组活动）产生的背景噪声混合方面存在差异。对于这八个课堂中的每一个，我们使用了数据收集阶段生成的混合音频文件及其对应的转录文本来构建模型。为了建立说话人识别的真实标签，我们使用这些文件以及相应的视频文件和行政数据（例如座位表、班级名单等）。虽然原始数据集包含3,999条话语，但经过后续“方法”部分IV-A (https://arxiv.org/html/2606.13712#S4.SS1) 所述的审核过程后，最终用于训练的标注数据集被过滤为2,801条话语。

## IV. 方法

我们开发了一个自动说话人识别系统，用于为数学课堂教学视频中的每条话语分配个体说话人身份。该系统将说话人嵌入模型与梯度提升分类器相结合，以区分教师和学生，以及在课堂环节中区分不同的学生个体。

### IV-A. 说话人标注

两名经过训练的标注员（包括第一作者）对课堂转录中的每条话语进行了说话人识别。标注员参考多种上下文信息：混合音频轨道、课堂视频记录、座位表和班级名单。这些材料结合使用，以最大化说话人归属的准确性。

对于转录中的每条话语，标注员在一个包含为此任务设计的额外列的修订版转录文件中输入回复。所需代码如下：

- • transcript_file_name：正在标注的转录文件名。
- • turn_idx：话语在原始转录文件中的零索引行号，确保在以编程方式读取（例如使用pandas）时与转录对齐。
- • identified (0/1)：一个二元指示符，表示该说话人是否能匹配到教师或班级中已同意参与的学生。
- • first_name / last_name：如果识别成功，提供说话人的名字和姓氏，必须与行政数据中的条目完全一致（包括大小写和特殊字符）。如果说话人未识别，则留空这些字段。
- • unidentified_type：如果无法匹配说话人，标注员需将声音分类为以下类别之一：
    - – child：一个无法匹配到任何已知学生的明显儿童声音。
    - – adult：一个无法匹配到教师的明显成人声音。
    - – multiple_students：2–3名学生的重叠语音合并为一条话语。
    - – whole_class：超过2–3名学生同时发言，合并为一条话语。
    - – other：代表非课堂参与者声音（例如，广播通知、视频）。
    - – impossible：无法归因于单个说话人的轮次（例如，[交叠]、[听不清]或极短的话语）。
- • notes：一个自由文本字段，供标注员记录标注过程中的特殊之处、不确定性或上下文观察。

这种结构化的编码方案确保了标注员之间的一致性，并方便了下游的定量分析。

完成第一轮标注后，两名标注员开会审查差异，特别是那些用Cohen's kappa[4 (https://arxiv.org/html/2606.13712#bib.bib21)]衡量的评分者间信度较低的课堂。这些会议侧重于澄清模糊的代码——尤其是multiple_students和whole_class之间的区别——以及解决系统性的分歧来源。在达成共识的讨论之后，标注员重新标注了受影响的课程，以提高信度并确保方法的严谨性。

说话人标注过程中的挑战还源于某些班级的视频同意书不完整，这意味着录音中只有部分学生可见（在某些课程中，人数超过一半，见表I (https://arxiv.org/html/2606.13712#S2.T1)）。因此，标注员不得不依赖音频提示、座位表位置和上下文推断，而不是直接的视觉确认。

课堂环境下的多模态说话人识别

相似文章

基于LLM的多模态音乐推荐系统

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

口语对话中的上下文感知多模态声明验证

基于文本与音频分类器的学生异常言语响应检测

提交意见反馈