EMORSION: 研究音频参数对电影情感反应和沉浸感的影响
摘要
EMORSION 提出了一项概念验证研究,探讨电影音频参数(频率、动态、方向性)如何影响观众在影院环境中的情感和沉浸感,发现不同混音之间存在可测量的差异。
arXiv:2606.18266v1 公告类型:cross
摘要:EMORSION 是一项探索性的概念验证研究,旨在研究电影音频设计如何影响观众在影院环境中的情感和沉浸感。选取了四部电影场景,涵盖恐怖片(2部)和剧情片(2部),平衡主流与独立制作。对于每个场景,通过系统地操作音频设计的三个核心方面——频率(音高)、动态(响度)和方向性(空间定位)——制作了多个替代音频混音。三组观众观看了这些场景,每组观众观看每个场景时,会接触到一种经过操作的混音和一种对照混音。观众反应通过三角多模态框架进行评估,该框架结合了通过问卷进行的自我报告情感和沉浸感、包括心率监测在内的生理测量,以及基于视频的运动跟踪。该协议成功捕获了不同音频条件下可测量、可解释的差异,表明即使是音频设计中细微的变化也能影响情感感知和沉浸感。非传统的混音往往会导致观众解读的更大变异性,而传统的沉浸式混音则与更强的跨观众一致性相关。这些发现确立了 EMORSION 协议的可行性,并激励更大规模的研究,以描述特定音频参数在塑造观众体验中的作用。
查看缓存全文
缓存时间: 2026/06/18 05:43
# EMORSION – 探究音频参数对电影情感反应与沉浸感的影响
来源:https://arxiv.org/html/2606.18266
\\correspondence
Nelly Garcian\.v\.a\.garcia\-sihuay@qmul\.ac\.uk\\lastnamesGarcia, Crocker, et al\.
Ruby Crocker伦敦玛丽女王大学Bleiz M\. Del Sette伦敦玛丽女王大学Fabrizio Smeraldi伦敦玛丽女王大学Charalampos Saitis伦敦玛丽女王大学George Fazekas伦敦玛丽女王大学Joshua Reiss伦敦玛丽女王大学
\{onecolabstract\}
EMORSION 是一项探索性概念验证研究,旨在探讨电影音频设计如何在影院环境中塑造观众情感与沉浸感。研究选取了恐怖片(2)和剧情片(2)四种电影场景,兼顾主流与独立制作。针对每个场景,通过系统操纵音频设计的三个核心方面——频率(音高)、动态(响度)和方向性(空间布置)——创建了多个替代音频混音。三个观众组分别观看这些场景,每个组对每个场景都会接触到一种操纵混音和一种对照混音。通过一个融合了自我报告(问卷)、生理测量(心率监测)和基于视频的运动追踪的三角化多模态框架来评估观众反应。该方案成功捕获了不同音频条件下可测量、可解释的差异,表明即使音频设计中细微的变化也能塑造情感感知和沉浸感。非常规混音往往导致观众解读的变异性更大,而常规沉浸式混音则与更强的观众间一致性相关。这些发现确立了 EMORSION 方案的可行性,并促使开展更大规模的研究,以描述特定音频参数在塑造观众体验中的作用。
## 1 引言
声音在塑造电影情感反应和沉浸感方面起着核心作用[1 (https://arxiv.org/html/2606.18266#bib.bib1)],它能够增强叙事并帮助传达导演的意图[2 (https://arxiv.org/html/2606.18266#bib.bib2)]。虽然音乐的作用已被广泛研究,但音效所获得的实证关注要少得多;Kock 和 Louven[3 (https://arxiv.org/html/2606.18266#bib.bib3)] 指出,音乐和声音设计都对感知到的沉浸感和悬疑感有显著贡献,而它们的组合则产生最强效果。然而,将单个音频参数的感知贡献分离出来在方法上仍然具有挑战性,尤其是对于音效,而且现有研究很少在生态效度高的情境(如影院环境)中进行,因为影院中的听音条件与典型的实验室设置有很大不同[4 (https://arxiv.org/html/2606.18266#bib.bib4)]。为填补这一空白,我们引入了 EMORSION(探究音频参数对电影情感反应与沉浸感的影响)实验方案,旨在研究电影混音中的音频增强如何影响影院环境中观众的沉浸感、情感解读和情感反应,参与者作为现场观众的一部分参与实验。
在本文中,“沉浸感”指的是观众对音视频体验的一种深度心理投入状态,其中注意力强烈地集中于电影,而忽略对周围物理环境的意识[5 (https://arxiv.org/html/2606.18266#bib.bib5)]。最近的神经科学研究强调三角化是研究感知的稳健框架,它整合了生理、行为和自我报告测量,以捕捉人类体验的多重维度[6 (https://arxiv.org/html/2606.18266#bib.bib6),7 (https://arxiv.org/html/2606.18266#bib.bib7)]。在这些测量中,沉浸感的一个常见量化指标是*反应相似性*:参与者的反应越接近在真实情境中观察到的反应,推断出的沉浸感水平就越高[8 (https://arxiv.org/html/2606.18266#bib.bib8)]。在 EMORSION 中,沉浸感不被视为可直接测量的变量;相反,我们采用三角化的视角,利用主观、生理和行为指标来描述观众体验,并承认沉浸式体验本质上是个人化的。本研究作为概念验证,表明三角化测量在真实的影院环境中是可行的,并且音频修改会对观众体验产生可测量的影响。
## 2 相关工作
声音设计和音乐显著影响观众的感知,越来越多的研究正在检验它们在沉浸式体验中的作用[9 (https://arxiv.org/html/2606.18266#bib.bib9),10 (https://arxiv.org/html/2606.18266#bib.bib10),11 (https://arxiv.org/html/2606.18266#bib.bib11)]。当电影场景模糊不清时,观众在很大程度上依赖音乐来推断情绪、叙事方向和角色特征[12 (https://arxiv.org/html/2606.18266#bib.bib12)]。虽然大多数研究侧重于受控实验室环境中的单个参与者,但最近的工作已开始探索类似影院的环境和真实剧院,以捕捉集体观众体验[13 (https://arxiv.org/html/2606.18266#bib.bib13),14 (https://arxiv.org/html/2606.18266#bib.bib14)]。
基于这些工作,沉浸感已通过三组互补的测量来量化:主观、生理和行为测量[8 (https://arxiv.org/html/2606.18266#bib.bib8),15 (https://arxiv.org/html/2606.18266#bib.bib15)]。主观测量主要依赖自我报告问卷,这仍然是音乐研究中评估情感表达、感知和诱发的主要方法[16 (https://arxiv.org/html/2606.18266#bib.bib16)]。生理测量捕捉与情感投入相关的自主反应;心电图(ECG)测量心脏电活动,是使用最广泛的方法之一,而市售的心率监测仪如 Polar H10 在验证研究中已显示出高准确性和可靠性[17 (https://arxiv.org/html/2606.18266#bib.bib17)]。此外,Rooney 等人[18 (https://arxiv.org/html/2606.18266#bib.bib18)]进一步将心率下降与沉浸感增加联系起来,这与电影沉浸感是一种以平静专注为特征的吸收状态的观点一致。行为测量采用了运动分析[19 (https://arxiv.org/html/2606.18266#bib.bib19)],先前的电影研究将静止和人际同步性与沉浸感相关联,而手部动作或咳嗽可能表明观众反应或脱离[14 (https://arxiv.org/html/2606.18266#bib.bib14)]。更细微的线索如点头或轻敲也可能表明音乐沉浸感[7 (https://arxiv.org/html/2606.18266#bib.bib7)],而空间化声音可以引发定向反应,如头部或身体朝向声源移动,表明注意方向[20 (https://arxiv.org/html/2606.18266#bib.bib20)]。
除了测量方法的选择,沉浸式体验的时间设计也很重要。沉浸感并不随内容时长线性缩放:先前的研究表明,对于空间沉浸式体验而言,大约七分钟可能是最优的,这种现象被称为持续时间忽视[21 (https://arxiv.org/html/2606.18266#bib.bib21)]。这一发现直接影响了 EMORSION 的刺激设计,它结合了主观、生理和行为测量,并限定了片段时长,以支持在实时影院环境中对不同音频条件进行有意义的比较。
## 3 方法
表 1:选择的电影场景及每场会话的增强混音分配。电影类型时间线时长目标情绪会话 01会话 02会话 03Ford vs Ferrari (FVF)冒险/悬疑2h02–2h108 分钟紧张、惊奇动态方向性频率A Quiet Place (AQP)恐怖5:00–10:005 分钟悲伤、紧张频率方向性动态I Saw the TV Glow (ISTVG)恐怖58:45–1h045 分钟好奇、紧张频率动态方向性Decision to Leave (DTL)悬疑1h35–1h4610 分钟紧张、好奇方向性频率动态
参见标题图 1:参与者设置,显示行为追踪(反光腕带)、生理监测(传感器带)以及通过移动设备进行自我报告数据收集。我们在 BLOC Studios 进行了三场会话,这是一个拥有 36 个扬声器的 Dolby Atmos 系统和 4K 投影的影院设施。¹¹https://www.qmul.ac.uk/bloc/。在每场会话中,参与者观看了四个电影场景,每个场景播放两次——一次作为对照混音,一次作为增强混音(共八次播放)。为反映三角化方法,我们从三个模态收集数据:生理方面,使用 Polar H10 胸带传感器²²https://www.polar.com/uk-en/sensors/h10-heart-rate-sensor进行连续心率监测;行为方面,使用两台固定摄像机捕捉静止和坐立不安等运动代理指标,并辅以反光腕带进行手动运动分析;主观方面,使用六项自我报告问卷³³https://shorturl.at/EvXGO在参与者的移动设备上完成,该问卷在每个场景后测量情感反应和感知到的沉浸感。每场会话以 15 分钟的介绍开始,涵盖研究目标、参与者期望以及生理和视频数据收集的知情同意书,并以开放的小组讨论结束。
### 3.1 参与者
共有 40 名参与者参与了本研究(17 名男性,22 名女性,1 名非二元性别)。会话 1 包括 13 名参与者(5 名男性,8 名女性);会话 2 包括 13 名参与者(4 名男性,8 名女性,1 名非二元性别);会话 3 包括 14 名参与者(9 名男性,5 名女性)。参与者的国籍多样化,包括英国人(21)、欧洲人(9)、中国人(5)、墨西哥人(2),以及伊朗、印度、埃及和土耳其各一人。
### 3.2 电影场景选择与音频修改
四个电影场景是在咨询了伦敦玛丽女王大学戏剧学院的专家和两位专业音响工程师后选定的。选择标准要求场景在音乐和音效(包括拟音和环境声)之间保持良好平衡,具有独立的叙事性,并具有适合沉浸式观看的情感范围。选择了恐怖片和剧情片以限制风格变异性,同时保持类型内的多样性。主流和独立制作均包含在内,因为独立电影已显示出与主流电影相当或更强的沉浸和情感影响力[22 (https://arxiv.org/html/2606.18266#bib.bib22)]。每种类型选择一个独立场景和一个主流场景,所有场景时长在 5 到 10 分钟之间。参与者对所选电影的先前熟悉度很低,每部电影只有两三个人认出。
为每个电影场景创建了四种不同的混音:原始的对照混音(7.1.2 Dolby Atmos)和三种增强混音。增强混音在三种条件下变化:频率、方向性和动态。每种增强混音仅在其各自的轴线上进行修改,总共产生了 16 种独特的音频混音。每种混音修改的具体音频参数总结和描述如下:
- •动态:通过压缩器、限制器和扩展器操纵电平和动态范围,控制柔和与响亮事件之间的对比。
- •频率:使用均衡、饱和、失真和移调修改频谱和音高相关特性、亮度、音色重量和调性中心。
- •方向性:通过立体声和 5.1 Atmos 声像调整空间音频分布,影响声源定位和空间化。
所有混音均在 Reaper 和 DaVinci Resolve 中使用出厂插件制作。选定的场景和时间线见表 1 (https://arxiv.org/html/2606.18266#S3.T1)。场景顺序和增强选择进行了平衡处理。
## 4 结果
表 2:按电影和混音条件划分的关键自我报告结果。统计显著的沉浸感 p 值以粗体表示。电影混音主导情绪沉浸感 (p)最显著Ford vs Ferrari (FVF)原始S3紧张 (45.9%)0.01音效 (57.1%)频率S3平静 (28.9%)0.01音效 (50.0%)A Quiet Place (AQP)原始S2紧张 (69.2%)0.002音效 (53.8%)方向性S2紧张 (69.2%)0.002音效 (64.3%)Decision to Leave (DTL)原始S3紧张 (35.7%)0.02音效 (50.0%)方向性S3紧张 (42.9%)0.02音效 (71.4%)I Saw the TV Glow (ISTVG)原始S2/S3厌恶 (30.8–42.9%)0.03 / 0.0006音效 / 视觉动态S3厌恶、痛苦 (35.7%)0.0006音效 (50.0%)频率S2厌恶 (38.5%)0.03音效 (53.8%)
根据三角化框架(见第 2 节 (https://arxiv.org/html/2606.18266#S2)),分析了自我报告、行为和生理数据。额外材料和次要分析报告见 https://emorsion.netlify.app。
### 4.1 自我报告测量
对于每个场景,参与者完成了一份评估情感反应和沉浸感的五项问卷,比较了原始和增强混音。对情感强度评分和显著元素识别进行了方差分析;使用卡方检验评估情绪选择和感知到的情绪随时间的变化;使用配对 t 检验评估沉浸感差异。强度变化 p 值无统计学意义。展示顺序、最频繁回应、p 值和百分比见表 2 (https://arxiv.org/html/2606.18266#S4.T2),统计显著值以粗体表示。
Ford vs Ferrari:会话 1 的观众报告对动态混音有更高的兴奋感,对原始混音有更高的紧张感。动态最常被识别为修改后的参数。音效在方向性混音中最显著,而音乐在会话 2 的观众中最显著(50%)。频率混音被 50% 的参与者感知为在听觉上与众不同。
A Quiet Place:会话 1 的观众发现音效在原始混音中最突出,而音乐在增强混音中更突出。会话 2 的观众报告两种混音的紧张感一致,方向性混音的沉浸感变化具有统计学意义。在会话 3 中,几乎所有参与者(13/14)都报告了动态混音带来的情绪变化,音效仍然是最突出的。
Decision to Leave:会话 1 将增强混音与痛苦和前景化的视觉相关联,而原始混音则强调紧张、音效和音乐,音高被识别为主要修改。会话 2 发现原始混音唤起更平静、更黑暗的情绪,而动态混音增加了好奇心;46.2% 将音高识别为主要修改。在会话 3 中,音效占主导(71.4%),方向性混音显示出统计显著的沉浸感变化(p=0.02p=0.02)。
I Saw the TV Glow:各混音的情绪模式大致相似。会话 1 将音效前景化;会话 2 报告频率混音中最常出现厌恶(38.5%);会话 3 发现动态混音引发厌恶和痛苦(35.7%),原始混音主要引发厌恶,且视觉和音效最为显著。
值得注意的是,自我报告问卷显示了对感知到的沉浸感的显著影响。在所有会话中,大多数参与者报告至少有一种增强混音比原始混音带来了更高的沉浸感。相似文章
EmoS:面向细粒度流式情感理解的高保真多模态基准
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
EMO-BOOST:情绪增强的视听特征提升深度伪造检测的泛化能力
本文提出Emo-Boost,一种多模态深度伪造检测框架,利用情绪线索(视听情绪识别)作为高层语义信号,提升对未见操纵类型的泛化能力,在FakeAVCeleb数据集上实现了平均AUC提升2.1%。
EMMA:从多模态数据中提取多个物理参数
EMMA是一种基于物理信息的多模态框架,利用液体时间常数网络和物理约束损失,从原始视频、音频和图像数据中恢复动力学参数,在多种基准测试中显著优于现有基线方法。
回音放大知识:通过情感向量重新注入在语言模型中构建躯体标记模拟物
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。
当视觉为声音代言
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。