自发语音中对话成功感知的声学和面部标记
摘要
本文使用多模态特征(声学、面部、轮流说话)分析自发性双人Zoom对话,以识别对话成功感知的标记,发现语音和面部运动的协调与更高的互动质量相关。
arXiv:2604.15322v1 公告类型:交叉
摘要:个体经常调整其说话方式以与对话者保持一致,这一现象与参与度和融洽感相关联。虽然在任务型对话中已被充分记录,但在自然、非任务型和虚拟环境中的协调现象知之甚少。在本研究中,我们分析了大量自发性双人Zoom对话语料库,以探讨对话动态如何与对话交互质量感知相关。我们提取了包含轮流说话、停顿、面部运动以及音高和强度等声学特征的多模态特征。对话成功感知通过对话后评分的因子分析进行量化。结果表明,在自发语音中可靠检测到的协调与更高的感知成功相关。这些发现识别了对话质量的关键互动标记,并突出了有针对性干预的机会,以促进更有效和引人入胜的沟通。
查看缓存全文
缓存时间: 2026/04/20 08:30
# 自发言语中感知会话成功的声学和面部标记
来源: https://arxiv.org/html/2604.15322
###### 摘要
个体往往会调整其说话方式以适应对话者,这一现象与投入度和融洽度相关联。虽然在任务导向的对话中有充分的记录,但在自然、非任务和虚拟环境中的协调现象了解甚少。在本研究中,我们分析了大量自发性双人Zoom对话语料库,以检查会话动态与感知交互质量的关系。我们提取了涵盖轮流、停顿、面部运动和声学测量(如音高和强度)的多模态特征。感知会话成功通过对话后评分的因子分析进行量化。结果表明,在自发言语中可靠地检测到协调,并与较高的感知成功相关。这些发现识别了会话质量的关键交互标记,并突出了促进更有效和有吸引力沟通的针对性干预机会。
索引词—协调、面部、声学、轮流、停顿
## 1 引言
社交互动对沟通、联系和幸福感至关重要。对话者通过言语、语言和视觉线索相互影响[18,13]。在自发的相识对话中,轮流动态可能揭示交互质量:较短的轮次可能反映协调或不投入,而较长的轮次可能表示舒适度和话题参与。值得注意的是,较长的间隔可以促进朋友之间的联系,但在陌生人之间显示出断开[14]。
在对话中,对话者通过镜像情感、韵律和身体运动进行适应,这一过程称为协调、协和或模仿[16]。高协调度(测量为时间锁定的行为协调)增强了交互质量[9,12]。言语和非言语线索对成功的交互都至关重要[13],这进一步取决于共同的关注、协调和情绪。研究表明个体可以通过有针对性的训练学会协调,例如在有言语困难的儿童中[15]。因此,识别预测会话成功的协调特征对于开发有效的训练方法至关重要。
声学-韵律特征(如音高、强度、说话速率和响度)的协调已被证明可以预测任务导向环境中的对话质量[9,7,3]。非言语特征包括身体运动、眼睛注视、面部表情和头部运动也可预测交互质量[10,2]。然而,在理解成人同伴在扩展Zoom交互中的非结构化、自然对话方面仍存在重大差距。先前的研究主要关注任务导向的背景,如计算机游戏[8]、教育中的协作问题解决[9]和用户-代理交互[5],主要通过声学-韵律特征。其他研究已考查面对面的自发代码转换动态[4]或与自闭症儿童的短期相识互动[17],但本研究的焦点是在长期虚拟环境中使用同一语言进行对话的成人同伴。
大多数先前的自发对话研究是面对面进行的,但许多当代同伴互动(包括求职面试)现在远程进行。因此,理解远程通信中的协调如何与会话成功相一致至关重要。我们的研究调查多模态协调是否预测自我报告的享受度和协调度,长期目标是在神经典型和混合神经类型的交互中识别会话质量的标记。本工作的主要贡献是;我们展示了特征面部动作单元、音高、强度、轮次计数、停顿时长与感知会话成功相关联。我们分析了通过Zoom进行的大量自然对话语料库,并展示了协调的发生及其与会话成功的相关性。在本工作中,我们关注会话对齐。
首先,我们通过观察对话的一般对话动态(如轮流和停顿趋势)来初始化研究。接下来利用面部表情、音高和强度等特征,我们将分析细化为基于时间窗口和基于轮次的分析,以调查说话者是否随时间发生协调。最后,我们的目标是看前述特征是否与感知会话成功相关联。
## 2 数据集
对于本研究,我们分析了CANDOR语料库(自然在线录音对话数据集)[12],该语料库由BetterUp Labs与宾夕法尼亚大学的研究人员合作收集(2023)。CANDOR包含超过1500段自发性双人30分钟视频和音频录制对话,通过Zoom进行,参与者是19-66岁的陌生成年人,代表性别、教育、种族和代际身份广泛。交互是非结构化和非任务导向的。每次对话后,两位参与者独立完成对话后调查问卷,评分感知交互质量的多个方面;这些评分被用来构建综合成功分数(第3.1节)。为每个参与者记录了单独的音频通道,无需进行说话人分割。对于所有分析,我们将样本限制在被数据集标记为没有背景噪音或中断的会话。
## 3 方法
### 3.1 感知会话成功
每位参与者完成了对话前和对话后调查问卷,旨在评估交互的质量。完整的工具包含229个项目,包括人口统计和说话人相关的细节。为了本研究的目的,我们专注于21个构造的子集,这些构造捕获了情感、可享受性、友谊和共同基础的维度。为了识别感知会话成功(PCS)的相关维度,我们对这些构造进行了主成分分析(PCA)。初始探索性PCA揭示了两个潜在维度,载荷超过0.4。因此,我们进行了限制在两个维度(PCA₁,PCA₂)的后续PCA,保留载荷超过0.4的构造。虽然两个成分都可以解释,但仅PCA₁被采纳作为PCS测量的基础。这一选择的动机是其更强的判别效用:当分开分析时,PCA₁下分组的构造在PCS方面表现出明显更大的特征级协调分离,而PCA₂没有产生可比较的区分。
PCA₁中的那11个构造的响应;情感、总体情感、开始时的情感、中间的情感、结束时的情感、最好的情感、有多享受、我喜欢你、你喜欢我、谈话者、我的朋友喜欢你最初以异构的尺度(1-7、1-9或1-100)记录,并在分析前规范化为通用范围。评分在每个构造内进行z分数规范化,并在构造间进行平均以产生在0到1之间的个体PCS分数。为了减少标签模糊性并实现协调相关判别有效性的高对比评估,我们关注PCS分布极端端的对话,仅保留那些距离中位数一个标准差以上的对话。鉴于总体高享受度,这对应于PCS≤0.6用于低成功对话(LSCs)和PCS≥0.9用于高成功对话(HSCs),产生了35个LSCs和91个HSCs。
### 3.2 轮流分析
虽然轮流是一个广为接受的会话规范[14],但轮次交换的细粒度结构很复杂,不同的模式仍然可能产生高度成功的交互。为了测试这些假设,我们从数据集的Backbiter转录本中推导轮次级别的测量,这些转录本从轮次单元中排除了反馈话语,因此提供了对会话轮次的更清晰的操作定义。虽然没有单一的轮次定义被普遍接受,但我们遵循数据集的约定(轮次定义为由一个说话人连续的言语部分,受到层级变化的限制)以实现计算一致性[12]。
对于每次对话(包括来自两个说话人的轮次),我们计算了轮次时长的汇总统计;最小、最大、平均、总计(所有轮次的和)和总轮次计数,使用转录本中的注释开始和结束时间。然后我们检查了它们与PCS的关联。
同时,我们量化了轮间沉默,定义为停顿(超过0.6秒的沉默被认为是显著的[12])在一个说话人的偏移和另一个说话人的开始之间。使用相同的定时注释,我们计算了每次对话的最小、最大、平均和总停顿时长,并评估了它们与PCS的关系。
### 3.3 声学特征分析
图1:特征与PCS的对比。(a)轮次时长(最小、最大、平均、总计)。(b)停顿时长(最小、最大、平均、总计)。(c)轮次计数。每个说话人的音频都在独立的通道上记录。所有音频录制首先从双通道转换为单声道,并从44.1 kHz降采样到16 kHz以标准化信号表示。特征基于转录本提供的定时边界分割为说话人轮次。
为了分析声学动态,我们使用音高估计神经网络(PENN)[11]从每个说话人的轮次级别音频中提取音高(F₀),该神经网络已证明具有强大的性能,包括在沙哑语音区域中的F₀检测。随后对音高轨迹进行了规范化以减少与性别相关的可变性。此外,使用Praat为每个轮次计算了言语强度。对于统计分析,计算了每个轮次的每个声学特征的最小、最大和平均值,并跟踪了它们在对话持续时间内的协调。
#### 3.3.1 声学特征的轮次级别近似协调
为了量化声学协调,我们计算轮次级别的接近度[8],这是相邻轮次应该相比于非相邻轮次位于接近位置的现象。首先,对于每次对话,我们索引轮次为时间顺序i=1,...,N。对于给定的声学特征统计f(我们使用轮次级别的汇总统计:F₀和强度的最小、最大和平均值),我们计算了轮次i上当前说话人的特征值,记为fc_i,以及伙伴在下一轮次的对应特征值fp_{(i+1)}。相邻轮次距离定义为这两者之间的绝对差,如等式1所示
fd_a(i) = |fc_i - fp_(i+1)| (1)
为了获得非相邻基线,我们随机选择伙伴轮次的f,该轮次对轮次i非相邻(fp_{j≠i}),并用fc_i计算该的绝对差。这个过程重复总共10次,计算这10个差的平均值,如等式2所示
fd_na(i) = Σⱼ¹⁰|fc_i - fp_{j≠i}|/10 (2)
我们将其称为非相邻距离。如果存在协调,相邻差fd_a(i)应该小于非相邻对应的fd_na(i)。我们为每个对话中的每个轮次以及每个特征统计f计算fd_a(i)和fd_na(i)。生成的距离分布使用Mann-Whitney U检验进行了比较,以评估相邻轮次距离是否系统性地小于非相邻基线。Shapiro-Wilk检验揭示了所有特征中的显著偏离正态性,特别是在HSCs中。例如,最小音高在两个组中都显示强非正态性(LSC: p=5.15e⁻⁸, HSC: 4.16e⁻¹⁷)。鉴于这一模式,Mann-Whitney U检验被应用于所有分析。
### 3.4 面部表情分析
为了研究面部表情的协调,我们使用OpenFace开源面部行为分析工具包[1]提取面部动作单元(FAUs),该工具包处理每个说话人的视频录制,并输出广泛的面部运动指标。对于本研究,我们使用了从默认OpenFace设置中提取的17个FAUs(在表2中提到)。
#### 3.4.1 面部动作单元的同步
虽然接近度反映了给定特征在对话者之间在幅度上相似的程度,同步捕获了特征轨迹的时间对齐,即使它们的绝对值可能不同。
在本工作中,我们调查FAUs的同步是否与PCS相一致。具体而言,我们在每次对话中计算了使用非重叠5秒窗口的两个说话人之间相同FAU的Pearson相关性。选择这种连续的固定窗口方法而不是轮次分割,是因为有意义的情感表达也可能在停顿期间发生,否则在轮次分割分析中被排除[3]。
当参与者相互镜像面部表情时,他们面部动作单元之间的相关性增加。为了捕获这一现象,原始相关值首先被转换为Fisher z变换值(z_f)。然后我们计算了z_f在每次对话中的平均值。该测量独立计算每个FAU,随后与PCS评分相关联。
## 4 结果
### 4.1 轮次和停顿与PCS的关系
为了评估组间差异,我们为每个f进行了Mann-Whitney U检验,零假设(H₀)是分布相似,替代假设(H₁)是分布不同。对应的U、z、p、q(Benjamini-Hochberg错误发现率更正值)报告在表1中。图1(a)显示在HSCs中,最大、平均和总轮次时长相似文章
令牌统计揭示多轮大语言模型交互中的对话漂移
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。
When2Speak: 面向大语言模型的多方对话时序参与与话轮转换数据集
When2Speak是一个合成数据集及流程,用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换,强化学习将漏干预率从50%降至约20%。
CIG:通过语义记忆动态测量审议对话中的会话信息增益
本文介绍了会话信息增益(CIG)框架,用于通过跟踪不断演变的语义记忆来衡量发言如何推进审议对话中的集体理解,并根据新颖性、相关性和蕴含范围对发言进行评分。作者证明了基于记忆的动态与人类感知的对话质量相关性强于传统启发式方法,并开发了基于LLM的信息中心会话分析预测器。
MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。
VoxMind:端到端智能体语音对话系统
VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。