多模态隐马尔可夫模型用于持续情绪状态跟踪

arXiv cs.AI 2026/05/14 04:00 论文

摘要

本文提出了一种轻量级框架，使用粘性因子HDP-HMM从多模态效价-唤醒轨迹中建模会话情绪为潜在状态，旨在实现可解释且计算高效的情绪状态跟踪。

arXiv:2605.12838v1 公告类型：新摘要：通过将单个话语的情感作为一个整体处理，追踪对话的可解释情感弧线对于理解和指导应用（尤其是临床对话环境）中的沟通至关重要。现有的情感识别方法在话语层面运作，掩盖了真实对话动态中持续出现的阶段。我们提出了一种轻量级框架，该框架使用基于同步视频、音频和文本输入的多模态效价-唤醒表示，通过粘性因子HDP-HMM将对话情感建模为一系列潜在情感状态。我们使用LLM作为评判者、几何和时间一致性指标评估状态预测的质量，表明粘性HDP-HMM生成比基线高斯HMM更具可解释性的状态序列，且计算成本仅为基于LLM的对话状态跟踪方法的一小部分。此外，在临床数据集中的问答实验表明，有意义的情绪阶段可以从多模态效价-唤醒轨迹中可靠地恢复，并通过上下文增强提高LLM在不稳定情感状态下的响应质量。因此，该框架为大规模对话情感动态的可解释、轻量级和可操作分析开辟了一条道路。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:14

## 多模态隐马尔可夫模型用于持久情感状态追踪 来源：https://arxiv.org/html/2605.12838 ###### 摘要 在应用对话场景，尤其是临床对话场景中，通过将单个话语的情感作为整体处理来追踪对话中可解释的情感弧线，对于理解和引导沟通至关重要。现有的情感识别方法在话语层面进行操作，掩盖了真实对话动态中持续的相位特征。我们提出了一种轻量级框架，该框架通过基于同步视频、音频和文本输入的多模态效价-唤醒表示，使用粘性阶乘HDP-HMM将对话情感建模为一系列潜在情感区间。我们使用“LLM-as-a-Judge”、几何和时间一致性指标评估区间预测的质量，证明粘性HDP-HMM比基线高斯HMM产生更可解释的区间序列，且计算成本仅为基于LLM的对话状态追踪方法的一小部分。此外，在临床数据集上的问答实验表明，可以从多模态效价-唤醒轨迹中可靠地恢复有意义的情绪阶段，并通过上下文增强在不稳定情感区间中提高LLM回复的质量。因此，该框架为在规模上实现可解释、轻量级和可操作的对话情感动态分析开辟了一条道路。贝叶斯非参数HMM、多模态问答、阶乘HDP-HMM、情感计算、对话情感识别、高效多模态融合、LLM-as-a-Judge

## 1 引言

在对话环境中，能够及时且细致地应对说话者的情感需求与有效沟通紧密相关；在临床环境中，这还与改善护理结果和治疗联盟相关。因此，在过去十年中，对话应用中对话状态追踪和情感识别的研究兴趣大幅增长，尤其是在临床背景下（Poria等人，2019b）。实际上，临床医生更关注整个互动过程中痛苦、安慰和参与度的演变模式，而非单个话语。因此，当情感在短话语层面上进行计算推理时（这是当前主流做法），产生的标签序列缺乏明确的持续性概念，从而掩盖了真实对话的时间-结构特性（Lee, 2022）。这引出了我们的第一个研究问题：我们能在多大程度上检测到对话过程中稳定且持久的情绪区间？此外，情感识别系统在很大程度上依赖离散的分类标签（如快乐、悲伤、愤怒），这反映了注释的便利性，而非情感潜在的连续性（Lee, 2022）。虽然效价-唤醒（VA）表示提供了一种更具心理学基础的选择，但关于使用纯数值方法对这些表示进行更高层次时间动态建模的工作相对较少。这引出了我们的第二个研究问题：连续的情感轨迹能在多大程度上被建模和解释，使其既具有时间一致性，又对对话代理有用？

在本工作中，我们将对话在时间序列中视为一系列潜在情绪区间。我们提出了一种轻量级的多模态框架，利用隐马尔可夫模型（HMM）将连续的VA轨迹分割为持续状态；HMM非常适合建模具有潜在结构和时间依赖性的序列数据。虽然标准的高斯HMM为此类分类任务提供了自然的基线，但它们倾向于过度分割情感轨迹，产生不切实际的快速状态切换。为了解决这个问题，我们采用了截断的粘性阶乘HDP-HMM，该模型引入了对自转移的显式偏好，允许从数据中推断对话中活动区间的数量（而非预先固定），并灵活地将同步多模态输入合并为一致的区间。

图1：高斯HMM（上）与粘性HDP-HMM（下）识别的对话文本效价-唤醒区间比较。不同颜色阴影表示相应话语索引下的不同区间。HMM指定为4个区间（n=4），粘性HDP-HMM设置最大为8个区间（K=8），实际识别出3个有效区间。

我们表明，使用粘性阶乘HDP-HMM（图1）可以将连续的多模态情感轨迹分割为稳定、可解释的情绪区间，从而在运行时无需依赖大型语言模型（LLM）推理即可产生连贯的对话结构。关键的是，我们的方法直接对从音频、视觉和文本信号中推导出的数值VA表示进行操作，实现了高效推理，无需在运行时依赖昂贵的LLM调用。除了计算效率，我们还强调对话状态追踪中的可解释性。通过将推断的区间与给定数据集中直观且带标签的动态解释对齐，我们朝着结构化表示和引导对话动态的方向迈进。我们进一步探索将这些区间映射为更高层次的沟通策略，供LLM用于引导对话，从而从低级情感信号跃迁到对话中有意义的互动模式。在临床问答环境中比较了LLM在有/无访问可解释区间时的回答，我们发现使用带可解释状态的已计算区间增强LLM上下文可以提高回答质量。由于推断这些区间的方法是轻量级的且“在线”，我们贡献了一种利用多模态信号增强问答动态的高效方法。

## 2 背景与相关工作

### 2.1 情感识别模型

随着多模态情感识别领域的发展，语音和文本成为核心模态。主要原因在于情感不仅体现在面部线索中，还体现在韵律、词汇选择和话语语境中；近年来，多模态系统融合这些信号以提高鲁棒性，但主流流程仍然倾向于对独立评分的片段进行话语级预测，而非建模更长时间范围的情感结构（Ramaswamy and Palaniswamy, 2024）。此外，作为离散情感表示的改进，将情感建模为连续坐标（Ong等人，2006）对我们的研究特别有用，因为它保留了邻近状态之间的渐变差异，并创建了一个结构化的数值空间，非常适合下游的序列模型。特别是对于代理型对话应用，这种细微差别至关重要：区分不同种类和强度的负面情感可以直接指导回应策略和干预措施（Ong等人，2006）。

### 2.2 对话状态追踪的现代局限性

近年来，在对话状态追踪（DST）中，基于模式驱动和基于LLM的DST已成为主流的高性能范式，尤其是在开放域和零样本设置中，因为LLM可以直接从对话历史生成槽值或状态描述。然而，这种灵活性的提升伴随着巨大的计算成本，并且并未完全解决根本的鲁棒性问题：多模态和嘈杂的对话仍然需要一种原则性方法将异构输入映射为稳定的状态估计（Carranza and Rojas, 2025）。这就是为什么DST越来越被视为在不确定性下进行鲁棒状态推断的问题，尤其是当对话的关键信号具有重要时间维度并且在噪声数据存在时仅可部分观测（Balaraman等人，2021）。

### 2.3 隐马尔可夫模型

隐马尔可夫模型（HMM）为建模具有潜在结构的序列数据提供了自然框架，其概念吸引力在于建立了随时间控制观测现象行为的未观测状态。从噪声观测中推断时间序列数据内部状态的概念允许我们将对话情感视为具有持续情感动态的连续区间，而非独立信号。然而，标准高斯HMM在应用于细粒度序列数据（如话语级情感）时表现出显著局限性。模型中的最大似然估计倾向于支持状态之间的快速切换，导致话语的过度分割，其中区间几乎在每个时间步都剧烈波动。试图通过手动固定状态数量或正则化转移来稳定这些模型通常会引入刚性，将概率模型压缩为更确定性的系统，限制其适应对话结构自然变化的能力（Fox等人，2008）。这些局限性促使我们开发更灵活的模型，以有效适应真实世界的对话。

## 3 方法

### 3.1 话语级情感提取

根据Russell（1980）的环形模型，情感状态在获取极性（正面与负面）和激活（高能量与低能量）的两个连续维度上表示。话语级产生的VA估计作为后续时间建模和对话多模态分析的基础观测。我们考虑基于文本、音频和视频的多模态情感检测，分别来自文本情感、面部表情和声音语调。书面转录的VA分数由针对连续回归微调的DistilBERT模型生成（Mavdol, 2025）。具体来说，该模型按照Russell（1980）的环形框架将每个话语映射到二维效价-唤醒空间。转录输入模型前使用时间对齐的边界在话语级进行分割；此外，我们移除了文本中的不流利现象和非语音伪影。预处理后，每个清洗后的片段独立传递给模型进行推理。音频数据的VA分数由经MSP-Podcast（Busso等人，2025）微调的剪枝Wav2Vec 2.0模型生成，用于维度语音情感识别（Wagner等人，2023）。MSP-Podcast是一个大型自然对话语音集合，带有丰富的连续VA-支配度注释。以16 kHz原始音频为输入，对池化的Transformer表示应用回归头以产生连续输出。Wav2Vec2.0特别适合此任务，因为它捕捉了韵律和声学特征（如音调、能量和时间动态），这些特征独立于词汇内容携带情感信息。视觉数据的VA分数由EmoNet生成，这是一个面部情感模型，经过训练可在自然条件下从人脸图像中估计连续效价和唤醒（Toisoul等人，2021）。在我们的流程中，视频首先在话语级分割，并表示为提取帧的序列。

### 3.2 多模态特征构建

对于每个话语t，令 x_t^txt = (v_t^txt, a_t^txt) ∈ R² 和 x_t^aud = (v_t^aud, a_t^aud) ∈ R² 分别表示文本和音频的VA估计。我们没有将这些特征拼接为单个观测向量，而是将每个模态视为由共享潜在情绪区间生成的独立观测通道。形式上，在每个时间步 t，观测表示为模态特定变量的集合：

𝒳_t = { x_t^txt, x_t^aud }.  (1)

给定潜在区间 z_t，我们假设模态条件独立：

p(𝒳_t ∣ z_t) = p(x_t^txt ∣ z_t) p(x_t^aud ∣ z_t).  (2)

其中每个模态使用自己的高斯发射分布建模。这种分解的发射模型允许每个模态在同一潜在区间内表现出不同的噪声特性和变异性，避免了将线性拼接特征建模为潜在的复杂联合分布。总体对数似然在模态间可加性分解：

log p(𝒳_t ∣ z_t) = log p(x_t^txt ∣ z_t) + log p(x_t^aud ∣ z_t).  (3)

该公式也自然地直接扩展到其他模态。我们通过引入第三种模态 x_t^vid = (v_t^vid, a_t^vid) ∈ R² 来整合视觉情感，该模态从帧级估计计算并在话语级聚合。时间 t 的观测变为：

𝒳_t = { x_t^txt, x_t^aud, x_t^vid },  (4)

条件独立性假设扩展为：

p(𝒳_t ∣ z_t) = ∏_{m ∈ {txt, aud, vid}} p(x_t^(m) ∣ z_t).  (5)

所有模态流在建模前独立标准化为零均值和单位方差，以确保模态间的可比尺度。

### 3.3 时间区间建模

#### 3.3.1 高斯HMM基线

标准高斯隐马尔可夫模型（Rabiner, 1989）为潜在区间检测提供了可行的基线。给定一个对话表示为 T 个话语级观测的序列 X = {x_1, …, x_T}，模型假设每个观测由一个离散潜在状态 z_t ∈ {1, …, K} 生成，该状态根据一阶马尔可夫过程演化：

z_1 ∼ π,  (6)
z_t ∣ z_{t-1} ∼ Categorical(A_{z_{t-1}}),  (7)
x_t ∣ z_t = k ∼ N(μ_k, Σ_k),  (8)

多模态隐马尔可夫模型用于持续情绪状态跟踪

相似文章

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

评估主动式对话智能体中的多模态情绪识别：一项用户研究

在长期用户交互中个性化具身多模态大语言模型智能体

在对话前了解你：面向多轮对话中LLM个性化的用户状态建模

EmoS：面向细粒度流式情感理解的高保真多模态基准

提交意见反馈