基于对比 LLM 微调对齐对话附和信号与语境表征

arXiv cs.CL 论文

摘要

KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。

arXiv:2604.16622v1 公告类型:新 摘要:对话附和信号(如 `yeah'、`mhm' 和 `right')是简短且不中断对话的反馈信号,其词汇形式与韵律特征共同传达语用含义。尽管此前的计算研究主要侧重于预测附和信号的发生时机,但词汇-韵律形式与其意义之间的关联仍未得到充分探讨。我们提出了一种两阶段框架:首先,在对话转写文本上对大型语言模型进行微调,以提取丰富的语境表征;其次,学习一个用于对话语境与附和信号具体表现形式的联合嵌入空间。我们通过三元相似性判断(涵盖韵律与跨词汇维度)以及语境-附和信号适配度任务,评估模型输出与人类感知的一致性。结果表明,与先前方法相比,学习到的投影映射显著提升了语境与附和信号的检索效果。此外,研究还揭示出,附和信号的形式对长程对话语境高度敏感,且所学习的嵌入表示比原始 WavLM 特征更贴近人类的判断标准。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:03

# 通过对比式大语言模型微调对齐附和语与对话上下文表示

来源:https://arxiv.org/html/2604.16622 Gabriel Skantze Department for Speech, Music and Hearing KTH Royal Institute of Technology, Sweden liviaq@kth\.se (https://arxiv.org/html/2604.16622v1/[email protected]), skantze@kth\.se (https://arxiv.org/html/2604.16622v1/[email protected])

###### 摘要
附和语(e\.g\., ‘yeah’, ‘mhm’ 和 ‘right’)是简短的非打断性反馈信号,其词汇形式与韵律共同传达语用意义。尽管此前的计算研究主要集中于预测附和语的时机,但词汇-韵律形式与意义之间的关系仍未得到充分探索。我们提出了一种两阶段框架:首先,在对白转写文本上微调大语言模型以提取丰富的上下文表示;其次,为对话上下文和附和语的实际输出学习一个联合嵌入空间。我们通过三元相似性判断(韵律与跨词汇层面)以及上下文–附和语适用性任务来评估其与人类感知的对齐程度。结果表明,与先前方法相比,学习到的投影显著改善了上下文-附和语的检索性能。此外,结果还揭示出附和语的形式对长段对话上下文高度敏感,且学习到的嵌入表示比原始 WavLM 特征更符合人类的判断。

Aligning Backchannel and Dialogue Context Representations via Contrastive LLM Fine-Tuning Livia Qian and Gabriel SkantzeDepartment for Speech, Music and HearingKTH Royal Institute of Technology, Sweden liviaq@kth\.se (https://arxiv.org/html/2604.16622v1/[email protected]), skantze@kth\.se (https://arxiv.org/html/2604.16622v1/[email protected])

## 1 引言
对话反馈是指简短且不中断的回应,用于示意注意力、理解或惊讶等情况 Allwood et al.\(1992\) (https://arxiv.org/html/2604.16622#bib.bib1)。这些回应通过建立共同基础 Clark and Schaefer \(1989\) (https://arxiv.org/html/2604.16622#bib.bib17); Fusaroli et al.\(2017\) (https://arxiv.org/html/2604.16622#bib.bib34) 并替代显式的元语言交互——例如,将“你理解了吗?”这类问题的完整回答(如“Yes, continue”或“No, please repeat”)替换为简单的标记“yeah!”或“sorry?”。反馈通常具有多模态特性,涉及发声、注视和手势 Bertrand et al.\(2007\) (https://arxiv.org/html/2604.16622#bib.bib8); Truong et al.\(2011\) (https://arxiv.org/html/2604.16622#bib.bib96); Ferré and Renaudier \(2017\) (https://arxiv.org/html/2604.16622#bib.bib29)。对这些信号进行建模对于在对话系统中建立亲和力至关重要 Axelsson et al.\(2022\) (https://arxiv.org/html/2604.16622#bib.bib4)。“yeah”、“uh-huh”或“wow!”等声音实例通常被称为**附和语(backchannels)** Yngve \(1970\) (https://arxiv.org/html/2604.16622#bib.bib106)。参考图注 图1:联合上下文-附和语模型架构。在此版本的模型中,上下文转写文本和上下文音频分别通过各自的编码器(微调后的 LLM 和预训练的 WavLM),随后拼接并投影到降维空间以形成上下文嵌入。计算工作优先考虑了附和语的位置与时机 Heldner et al.\(2013\) (https://arxiv.org/html/2604.16622#bib.bib41); Rue de et al.\(2019\) (https://arxiv.org/html/2604.16622#bib.bib87); Ortega et al.\(2020\) (https://arxiv.org/html/2604.16622#bib.bib74); Ishii et al.\(2021\) (https://arxiv.org/html/2604.16622#bib.bib47),但往往忽视了**形式**与**意义**之间的关联。先前的研究 Beňuš et al.\(2007\) (https://arxiv.org/html/2604.16622#bib.bib7) 表明,词汇选择与韵律共同塑造了附和语的语用解释——例如,区分‘yeah!’ 与 ‘yeah?’ 时的差异。因此,不当使用附和语形式可能导致语用上不得体的回应。为了有效使用和解读附和语,需要鲁棒的表示方法。一种有前景的方法是将附和语信号嵌入连续空间中,使距离反映相似度。我们早期的工作 Qian and Skantze \(2024\) (https://arxiv.org/html/2604.16622#bib.bib79) 表明,使用将历史上下文和反馈投射到共享空间的对比学习框架是可行的。然而,该工作依赖于简化的平均池化文本嵌入(e\.g\., BERT by Devlin et al., 2019 (https://arxiv.org/html/2604.16622#bib.bib24))来编码对话上下文,且仅局限于上一轮的最后4秒。我们通过在对白转写文本上微调自回归大语言模型(LLM)扩展了这一方法(第4.1节 https://arxiv.org/html/2604.16622#S4.SS1);紧接在附和语之前出现的隐藏状态作为上下文的密集语义表示。该表示与对应语音最后一秒的 WavLM Chen et al.\(2022\) (https://arxiv.org/html/2604.16622#bib.bib14) 编码相融合(第4.2节 https://arxiv.org/html/2604.16622#S4.SS2)。最终生成的架构如图1 (https://arxiv.org/html/2604.16622#S1.F1) 所示。

本文的贡献有四方面。首先,我们表明在口语对话数据上微调自回归 LLM 能显著提升上下文编码能力,这是生成有效附和语表示所必需的。其次,我们强调了上下文长度对此类表示的重要性,表明附和语形式的选择是一个语用上复杂的现象。第三,我们通过基于感知数据的下游评估任务桥接了模型语义与人类语义,证明学习到的表示与人类感知高度对齐。最后,我们展示了可以通过线性投影从学习到的表示中恢复可解释的情感维度——Energy、Surprisal 和 Polarity。

## 2 相关工作
历史上关于对话反馈与附和语的研究主要集中在位置与时机上,利用了诸如“反馈相关性空间” Heldner et al.\(2013\) (https://arxiv.org/html/2604.16622#bib.bib41); Howes and Eshghi \(2021\) (https://arxiv.org/html/2604.16622#bib.bib44) 以及识别引发附和语的线索 Gravano and Hirschberg \(2011\) (https://arxiv.org/html/2604.16622#bib.bib38) 等概念。早期方法依赖基于规则的声学特征提取 Koiso et al.\(1998\) (https://arxiv.org/html/2604.16622#bib.bib52); Bertrand et al.\(2007\) (https://arxiv.org/html/2604.16622#bib.bib8); Heldner et al.\(2010\) (https://arxiv.org/html/2604.16622#bib.bib40); Poppe et al.\(2010\) (https://arxiv.org/html/2604.16622#bib.bib77),而近期的计算工作已转向神经网络方法,拓宽了潜在任务的范畴,即基于附和语形式和意义的任务。神经方法包括预测与分类任务 Ruede et al.\(2017\) (https://arxiv.org/html/2604.16622#bib.bib86); Wang et al.\(2024\) (https://arxiv.org/html/2604.16622#bib.bib98); Park et al.\(2024\) (https://arxiv.org/html/2604.16622#bib.bib75); Inoue et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib46); Fukunaga et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib33),对比学习框架 Qian and Skantze \(2024\) (https://arxiv.org/html/2604.16622#bib.bib79),无文本生成 Mai and Carson-Berndsen \(2025\) (https://arxiv.org/html/2604.16622#bib.bib66),以及多任务学习方法 Jan et al.\(2021\) (https://arxiv.org/html/2604.16622#bib.bib48); Liermann et al.\(2023\) (https://arxiv.org/html/2604.16622#bib.bib61)。近期工作也致力于附和语数据的收集、标注与分析。Bodin et al.\(2021\) (https://arxiv.org/html/2604.16622#bib.bib11) 标注了反馈属性(预期性、效价和特异性);Figueroa et al.\(2022\) (https://arxiv.org/html/2604.16622#bib.bib30) 为 Switchboard Godfrey et al.\(1992\) (https://arxiv.org/html/2604.16622#bib.bib36) 提供了反馈功能标注;Müller et al.\(2022\) (https://arxiv.org/html/2604.16622#bib.bib70) 聚焦于多模态群体中的附和语;Lin et al.\(2025b\) (https://arxiv.org/html/2604.16622#bib.bib64) 创建了一个带有附和语和话轮转换标签的三模态数据集。研究还考察了相对反馈感知 Qian et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib80) 以及虚拟代理的附和语行为 Poppe et al.\(2013\) (https://arxiv.org/html/2604.16622#bib.bib78)。

基于 Transformer 的大语言模型(LLMs)已被证明能够捕捉对轮转换 Ekstedt and Skantze \(2020\) (https://arxiv.org/html/2604.16622#bib.bib28) 和回复生成 Zhang et al.\(2020\) (https://arxiv.org/html/2604.16622#bib.bib107) 所需的全局上下文与语用线索。尽管现代 LLM 支撑着复杂的聊天机器人(OpenAI 的 ChatGPT (https://chatgpt.com/), Google 的 Gemini (https://gemini.google.com/) 等),但这些系统通常在清晰的界限下顺序运行,往往缺乏实时对话反馈所需的自然性。此外,这些模型仅基于文本,因此无法捕捉上下文线索和附和语形式的韵律特征。

并行地,神经语音模型推动了韵律表征的发展,而韵律对语用学至关重要 Ward et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib101)。wav2vec 2.0 Baevski et al.\(2020\) (https://arxiv.org/html/2604.16622#bib.bib5)、HuBERT Hsu et al.\(2021\) (https://arxiv.org/html/2604.16622#bib.bib45) 和 WavLM Chen et al.\(2022\) (https://arxiv.org/html/2604.16622#bib.bib14) 等模型采用自监督方式训练,以学习语音的连续表示。最近,生成式语音语言模型(SLMs)作为一种能够直接处理和生成音频的系统涌现出来 Nguyen et al.\(2023\) (https://arxiv.org/html/2604.16622#bib.bib71); Défossez et al.\(2024\) (https://arxiv.org/html/2604.16622#bib.bib21),有时甚至以“全双工”模式运行。一些融合的 SLMs 结合了文本和语音嵌入 Arora et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib2)。尽管充满潜力,当前的 SLMs 仍难以生成高频且语义可控的附和语,且它们是否真正理解来自用户的附和语的细微差别尚不清楚 Lin et al.\(2025a\) (https://arxiv.org/html/2604.16622#bib.bib63)。

我们的工作正处于这些领域的交叉点。鉴于附和语形式(考虑词汇选择和韵律)的可能空间非常庞大,单纯依靠下一个 token 预测很难对其进行有意义的离散化。虽然先前的研究表明如何利用对比学习将上下文和附和语投影到共享空间,但其依赖于简化的上下文表示 Qian and Skantze \(2024\) (https://arxiv.org/html/2604.16622#bib.bib79)。我们的方法利用 LLM 的语义深度来捕捉前文上下文的长期语用约束,同时使用音频嵌入来捕捉上下文结尾及附和语回复的韵律细微差别,直接弥合了附和语形式与意义之间的差距。

学习到的上下文和附和语嵌入支持多种实际应用。首先,上下文与附和语之间的余弦相似度可用于候选回复的排序。其次,将嵌入空间与可解释维度(e\.g\., Energy、Surprisal 和 Polarity)对齐,有望实现附和语合成的语义控制。最后,将用户附和语投影至同一空间,允许在对话系统设置中推断其语用意义。

## 3 数据集
我们使用 Fisher Part 1 (https://catalog.ldc.upenn.edu/LDC2004T19, https://catalog.ldc.upenn.edu/LDC2004S13Cieri et al.\(2004\) (https://arxiv.org/html/2604.16622#bib.bib16)——一个由 5,850 个美国英语母语者之间的 3 到 10 分钟电话通话组成的流行数据集,用于训练、评估和感知研究,并利用其时间对齐的转写文本来提取附和语。构成附和语源头的另一个数据集是 FiCa Figueroa et al.\(2024\) (https://arxiv.org/html/2604.16622#bib.bib32); Carol Figueroa \(2024\) (https://arxiv.org/html/2604.16622#bib.bib112),该数据集包含由单一英语母语者重新 enact 和自发产生的附和语,从而消除了说话人特定效应。FiCa 以 Qian et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib80) 呈现的形式用于评估和比较。所选附和语集合基于其在 Fisher 语料库中的词汇频率:‘absolutely’、‘ah’、‘cool’、‘definitely’、‘exactly’、‘good’、‘mhm’、‘mm’、‘oh’、‘okay’、‘really’、‘right’、‘sure’、‘uh-huh’、‘wow’、‘yeah’、‘yep’、‘yes’。与 Qian et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib80) 不同,我们不包含‘no’形式的回应以及直接显示不理解的情况(‘pardon’、‘sorry’、‘what’),因为在某些情况下,这些不被视为附和语,而是完整的话轮、答案或澄清请求。

## 4 模型
模型训练分为两个阶段。首先,LLMs 在 Fisher 对话的转写文本上进行微调,以学习文本上下文表示(第4.1节 https://arxiv.org/html/2604.16622#S4.SS1)。其次,微调一个联合的上下文–附和语架构,利用文本和语音进行**上下文**建模,仅利用语音进行**附和语**生成(第4.2节 https://arxiv.org/html/2604.16622#S4.SS2)。第一阶段对应于微调 **LLM 编码器**,如图1 (https://arxiv.org/html/2604.16622#S1.F1) 所示;第二阶段涉及微调**投影层**。尽管 LLM 微调阶段未能捕捉附和语的韵律变化,但我们假设它学习了不同的对话上下文如何塑造对词汇附和语形式概率分布的预期(这些形式携带不同的语义)。这使得联合训练阶段能够将这种词汇预期与更丰富的韵律和词汇实现表示关联起来。

### 4.1 微调 LLM 以获取上下文语义特征
在这一步中,我们比较了开源最先进的 LLMs 对上下文语义建模的能力,并观察先前上下文的长度(以话轮数表示)如何影响这一能力。我们比较了 Gemma 3 Gemma Team et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib35); Google Deepmind \(2025\) (https://arxiv.org/html/2604.16622#bib.bib110)、LLaMA 3.1 Grattafiori et al.\(2024\) (https://arxiv.org/html/2604.16622#bib.bib37); Meta AI \(2024\) (https://arxiv.org/html/2604.16622#bib.bib108)、Qwen2.5 Yang et al.\(2025\) (https://arxiv.org/html/2604.16622#bib.bib104); Qwen \(2024\) (https://arxiv.org/html/2604.16622#bib.bib109) 和 Mistral Jiang et al.\(2023\) (https://arxiv.org/html/2604.16622#bib.bib49); Mistral AI \(2024\) (https://arxiv.org/html/2604.16622#bib.bib111)。所有模型均使用固定的超参数(batch size = 2, max token length = 1024)针对因果语言建模进行微调,并使用 QLoRA(attention dimension = 32, alpha = 64, dropout = 0.05)。我们将 83,047 条 Fisher 转写片段均分为训练集和测试集。首先,我们在训练集的完整转写文本上训练模型,每个转写最多包含 50 个话轮,其中包括附和语和非附和语话轮。为了评估模型,我们通过输入不同的 dif

相似文章

Found in Conversation: LLMs 自我学习以缩小多轮对话差距

arXiv cs.CL

本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。