基于文本与音频分类器的学生异常言语响应检测
摘要
# 基于文本与音频分类器的学生异常言语响应检测 来源:[https://arxiv.org/html/2604.16717](https://arxiv.org/html/2604.16717) \(论文将于2026年4月10日在国家教育测量委员会会议上发表\) ###### 摘要 本文旨在填补自动言语响应评分(AVRS)使用中的一项关键安全空白。我们提出了一种新颖的混合框架,用于识别存在心理困扰的学生,该框架结合了文本分类器与音频分类器;其中文本分类器经过训练以根据内容检测响
查看缓存全文
缓存时间: 2026/04/21 07:04
# 结合文本与音频分类器检测学生令人担忧的言语响应
来源:https://arxiv.org/html/2604.16717
(论文将于 2026 年 4 月 10 日在国家教育测量委员会会议上发表)
###### 摘要
本文旨在解决在采用自动语音响应评分(AVRS)过程中存在的一个关键安全缺口。我们提出了一种用于识别问题学生的新型混合框架,该框架结合了文本分类器和音频分类器:文本分类器基于响应内容进行训练以进行检测,而音频分类器则利用韵律特征进行训练。通过同时考量响应的内容与韵律,该方法克服了传统 AVRS 系统的主要局限性,显著提升了识别潜在风险响应的性能。该系统能够加快人类审查流程的速度,这在需要及时干预的关键时刻甚至可能挽救生命。
## 1 引言
自动评分(AS)系统是由复杂统计模型构成的,旨在评估学生响应,其模拟了人类教育工作者的阅卷流程。当 AS 系统达到高标准时,已被证明是人工评分的高性价比替代方案,因此成为处理大量学生作业的教育机构和评估组织日益青睐的选择\[17 (https://arxiv.org/html/2604.16717#bib.bib9)\]。示例包括自动作文评分(AES)\[14 (https://arxiv.org/html/2604.16717#bib.bib70)\]、自动简答题评分(ASAS)\[15 (https://arxiv.org/html/2604.16717#bib.bib68)\] 以及自动语音响应评分(AVRS)\[3 (https://arxiv.org/html/2604.16717#bib.bib138)\]。然而,这些系统的好处伴随着诸多风险。AS 系统容易受到应试攻击策略干扰\[9 (https://arxiv.org/html/2604.16717#bib.bib270)\],对某些类型的响应准确率较低,并可能在训练数据之外延续或引入额外偏差\[11 (https://arxiv.org/html/2604.16717#bib.bib92)\]。对于 AVRS 系统而言,由于自动语音识别(ASR)在某些子群体中表现不可靠,这些偏差可能会进一步加剧\[7 (https://arxiv.org/html/2604.16717#bib.bib149)\]。
将人类从人工评分流程中移除所带来的一个关键却常被忽视的风险是:当学生响应显示出自我伤害或伤害他人的风险时,人类会自然地表现出关切。在传统人工评分材料中,这类响应通常被称为“Alerts”(预警),本文将沿用此术语。在传统人工评分流程中,发现此类预警可能需要数周时间,从而延误关键干预。最新研究表明,大语言模型(LLMs)能有效标记出一小部分文本响应以供人类立即审查,大幅加速了这一流程,并在必要时促成及时行动\[12 (https://arxiv.org/html/2604.16717#bib.bib272)\]。我们旨在为学生语音响应实施类似的流程。
传统的 AVRS 系统通常将自动语音识别(ASR)与 ASAS 集成。然而,将标准 AVRS 方法应用于预警检测存在两个主要局限:ASR 系统往往难以应对情绪激动的语音,且会遗漏关键的发声指标;反之,若仅关注语调,则可能忽略用中性语气传达的危险内容。我们的研究表明,混合检测框架能够实现更优的性能。通过结合分析发声特征的音频分类器与转录内容的评估,系统能够同时捕捉响应的表达方式和实质内容。这种全面的方法通过同时考虑参与者说的*w*何内容以及*h*如何表达,实现了对潜在风险响应更精准的检测。
本文结构如下:我们在第 2 节(https://arxiv.org/html/2604.16717#S2)概述了所用数据、各模型的训练方式、系统架构以及如何对该系统进行基准测试。在第 3 节(https://arxiv.org/html/2604.16717#S3)中,我们展示了该新流程相较于基线方法的优越性。在第 4 节(https://arxiv.org/html/2604.16717#S4)中,我们探讨了本研究的自然延伸方向与应用前景。
## 2 方法
### 2.1 系统架构
从高层架构来看,该系统包含三个主要组件:转录服务、文本评分器和音频评分器。转录服务将音频转换为文本,作为文本评分器的输入;音频评分器则直接作用于音频。文本评分器和音频评分器的输出均为实数。当我们对这些输出应用阈值时,即可得到两类分类结果。我们的组合流程规定:只要任一分类器判定音频为预警,整个系统即将其归类为预警。该流程如图 1(https://arxiv.org/html/2604.16717#S2.F1)所示。
Content ClassifierProsodic ClassifierorAudioClassification图 1:该系统由两个并行进程定义:内容分类与韵律分类。这意味着我们拥有两个分类器:一个基于转录文本,称为内容分类器;另一个直接基于音频,称为韵律分类器。两者共同判断参与者说了*w*何内容以及如何表达的*h*。
### 2.2 数据
为了明确任务目标,我们首先参考人工评分团队用于识别预警的指导原则。值得注意的是,许多考试机构对“预警”的界定各不相同。Smarter Balanced 联盟的手工评分规则将“问题学生预警”定义为包含自杀、犯罪行为、酗酒或吸毒、严重抑郁、暴力、强奸、性虐待或身体虐待、自残或伤害他人意图、忽视等情况。我们用于识别预警的人工评分团队将预警划分为五大类:自伤、伤人、遭受伤害、严重抑郁以及特定求助请求。关于这些类别的最清晰描述可见于 Burkhardt 等人的著作\[2 (https://arxiv.org/html/2604.16717#bib.bib7)\]。
本研究的一大动机在于:上述许多类别仅凭语音的文本内容即可进行初步判断。未能被转录文本涵盖的沟通元素被称为(声乐)韵律,包括重音、语调、节奏和语速等。已有充分文献记录了与抑郁症相关的嗓音韵律变化\[18 (https://arxiv.org/html/2604.16717#bib.bib271)\]。显然,任何全面的预警检测系统都必须纳入韵律考量。这促使我们同时采用内容分类器与韵律分类器。
由于我们需要构建文本分类器,首先需确定一个文本响应语料库。在\[10 (https://arxiv.org/html/2604.16717#bib.bib193)\]和\[12 (https://arxiv.org/html/2604.16717#bib.bib272)\]中,收录了适用于分类学生异常响应的文本数据。如\[12 (https://arxiv.org/html/2604.16717#bib.bib272)\]所述,平均约每 8,000 个响应中才出现 1 条预警,说明其极为罕见。为了在训练分类器时以合理比例采样预警数据,异常学生响应集辅以一组补充响应数据,这些数据已获人工评分团队审核,确认符合人工评分规则中的标准。由于这些补充响应没有对应的音频,它们专门用于训练内容分类器。该语料库的详细信息见表 1(https://arxiv.org/html/2604.16717#S2.T1)。
表 1:本研究所用的文本训练数据。韵律分类器则使用表 2(https://arxiv.org/html/2604.16717#S2.T2)所述的音频数据进行训练。除了学生异常响应外,非预警数据所用的响应也来源于我们预期会出现预警的典型题型类型。
表 2:用于构建韵律分类器及验证系统的音频数据。目前我们面临的一个问题是,问题学生的训练样本量比文本训练样本量小一个数量级。因此,我们仅使用可用非预警数据的一个子集,针对 49 道提示词各采样 200 条音频响应(共 9,800 条)用于训练。在验证阶段,我们使用一个大型(86,783 条)响应语料库来近似文本评分器和音频评分器的输出分布。尽管该语料库包含音频,但我们需要建立的是整个流程的分布情况,而非仅文本分数的分布。
### 2.3 模型
基于 Transformer 的架构(见\[16 (https://arxiv.org/html/2604.16717#bib.bib95)\])已在语言\[5 (https://arxiv.org/html/2604.16717#bib.bib81)\]、语音\[13 (https://arxiv.org/html/2604.16717#bib.bib273)\]和视觉\[6 (https://arxiv.org/html/2604.16717#bib.bib274)\]等多个模态中证明了其有效性。它们在表示学习方面也表现出色,使得跨模态学习成为可能\[1 (https://arxiv.org/html/2604.16717#bib.bib275)\]。上述架构需要三个模型:作为 ASR 流水线一部分的语音转文本模型、对语音转文本模型输出的文本进行分类的分类器,以及直接对音频进行分类的音频分类器。具体而言,我们选用了三种基于 Transformer 的模型:源自\[13 (https://arxiv.org/html/2604.16717#bib.bib273)\]的 Whisper 模型变体,以及一种 ELECTRA 模型变体\[4 (https://arxiv.org/html/2604.16717#bib.bib50)\]。其中,转录模型并未针对该任务进行微调。这些选择及模型的基本描述见表 3(https://arxiv.org/html/2604.16717#S2.T3)。
表 3:分类流水线中使用的基于 Transformer 的模型。文本评分器使用带有权重衰减\[8 (https://arxiv.org/html/2604.16717#bib.bib61)\]的 Adam 优化器进行训练,学习率为 $5\times 10^{-6}$,在整个数据集上针对交叉熵损失函数运行 2 个 epoch。同理,音频评分器使用相同的优化器、损失函数和 epoch 数量进行训练,学习率同样为 $5\times 10^{-6}$。由于损失函数作用于对数概率,当对数概率通过 Softmax 函数后,最终分数对应于预警概率的分量,这意味着最终分数可解释为属于预警的概率。
### 2.4 基准测试
该系统的设计目标是筛选出一定比例的响应交由人类团队进行审查。在选择该比例时,主要需要考虑成本因素。在本研究中,我们报告了 0.3% 至 4% 之间具有合理意义的百分比范围,但实际操作中我们通常选取 1% 至 2%。
遵循系统架构,内容分类器与韵律分类器需要设定与该比例相对应的阈值。由于分类器是通过向内容和韵律评分器提供阈值来定义的,因此可以独立确定分类器的性能。假设 $X$ 为响应集合,我们将转录操作后接文本评分函数的过程记为 $f_c: X \to [0,1]$。音频评分的应用记为 $f_p: X \to [0,1]$。验证响应集使我们能够通过线性插值较为准确地逼近百分位函数,从而获得阈值 $c_c$ 和 $c_p$ 的近似值。即:
$$P(f_c(x) > c_c \| x \in X) = \frac{p}{100} \qquad \text{且} \qquad P(f_p(x) > c_p \| x \in X) = \frac{p}{100}$$
其中 $p$ 为前述 0.3 到 4 之间的某个值。
在设定结合内容分类器与韵律分类器时的阈值时,我们的核心假设是:每个分类器标记的响应比例 $\tilde{p}$ 是相同的。给定 $\tilde{c}_c$ 和 $\tilde{c}_p$ 为对应某一比例 $\tilde{p}$ 的阈值,对于目标比例 $p$,我们的目标是找到一个 $\tilde{p}$ 使得:
$$g(\tilde{p}) = P(f_c(x) > \tilde{c}_c \|\| f_p(x) > \tilde{c}_p \| x \in X) = \frac{p}{100}.$$
我们可以通过数值求根法求解方程 $g(\tilde{p}) - \frac{p}{100} = 0$ 来隐式地导出 $\tilde{p}$。我们采用割线法,为每个选定的百分比设定初始估计值 $\tilde{p} = p/2$,该假设认为两个分类器的交集可忽略不计。一旦找到合适的阈值,便可利用测试集中的预警数据来估算最终提交审查的预警百分比。
## 3 结果
如上所述,对于任意给定的待审查人口比例 $p$,我们可以计算出每种方法(仅内容分类器、仅韵律分类器、两者结合)所标记的预警数量及其占比。在这些假设下,各方法的有效性可通过标记的预警数量来衡量。针对 0.3% 至 4% 之间的一组合理取值,我们将相关数据列于表 4(https://arxiv.org/html/2604.16717#S3.T4)。
表 4:音频(韵律)分类器与文本(内容)分类器单独使用及在混合系统中结合的效能结果。尽管验证样本仅包含 100 条预警,但我们明显看到,内容分类器与韵律分类器的结合优于单一方法。结果表明,相较于单独使用任一分类器,结合两者能显著提升对学生风险响应的检出率。在具有实际业务意义的 1%-2% 审查比例区间内,混合系统能识别出 79.0%-85.0% 的预警,而单独的内容分类器和韵律分类器分别为 60.0%-66.0% 和 69.0%-78.0%。
## 4 讨论
检测结果在检出率上的显著提升,意味着可能识别出更多处于危机状态的学生。内容分类器与韵律分类器之间的性能差距(在大多数阈值下相差约 10 个百分点)可能反映了两个因素。首先,我们的内容分类器得益于更大的训练数据集,其中包括补充样本。其次,某些预警类别(如具体威胁)可能比仅依靠韵律更容易通过文本内容可靠地检测出来。然而,韵律分类器能够识别出内容分析未捕获的预警(混合系统的优越表现即为明证),这验证了我们的假设:发声特征提供了至关重要的补充信息。
本研究的若干局限性也为未来研究指明了自然的发展方向。含预警的音频训练样本数量相对较少,这表明收集更多音频数据有望大幅提升韵律分类器的性能。此外,尽管当前架构将两个分类器视为独立运行,但未来的工作可以探索更复杂的输出融合方式,例如利用各分类器的置信度分数来加权它们的相对贡献。
该系统还可扩展至 cl相似文章
课堂环境下的多模态说话人识别
本文评估了一种用于K-12课堂说话人识别的多模态框架,通过将声学嵌入(ECAPA-TDNN)与基于LLM的转录本语义上下文相结合,将整体准确率从39%提升至50.3%,对于较长话语,准确率从64.9%提升至76.9%。
海报:探索基于音频检测土耳其电话诈骗的极限
本文介绍了首个公开的多模态数据集,包含100个土耳其诈骗和良性电话通话,评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明,基于转录的输入优于直接音频,凸显了在低资源语言中进行包容性AI安全研究的必要性。
迈向基于音系学的多语言TTS评估
本文提出了一种基于分类器的框架,用于审计多语言TTS系统的音系忠实性,以阿萨姆语ATR元音和谐为案例研究。结果显示,Meta的MMS TTS频繁错误生成舌根前伸元音,而这种偏差在人类语音中不存在。
心理健康对话中的专家级危机检测
介绍了CRADLE-Dialogue,一个由临床医生标注的基准数据集,用于心理健康对话中的对话轮次级危机检测,同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型,该模型在性能上优于现有的开放源代码和专有模型。
当视觉为声音代言
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。