ParaBridge:弥合语音语言模型中副语言感知与对话行为之间的鸿沟

arXiv cs.CL 论文

摘要

ParaBridge是一种基于策略的自蒸馏方法,旨在弥合语音语言模型中副语言感知与对话行为之间的差距,在不依赖外部奖励的情况下显著提升安全性和共情能力。

arXiv:2606.10581v1 公告类型:新 摘要:语音携带的信息远不止词汇:儿童的声音、恐惧的语气或嘈杂的背景,都应引导一个足够胜任的口语对话助手给出不同的回复。当前的语音语言模型(SLM)能够识别此类副语言线索,但在开放式对话中往往忽略它们。我们观察到,在推理阶段使用简单的副语言指令支架(scaffold)可以缩小这种感知-行为差距,表明相关线索已隐式存在于模型中。然而,这种支架在多轮对话和竞争性指令下仍显脆弱。因此,我们提出**ParaBridge**,一种基于策略的自蒸馏方法,将脆弱的推理时指令支架转化为稳定的模型行为。在训练过程中,支架仅作为临时的特权视角;无支架模型自行生成回复,而带支架的视角则沿其轨迹提供密集的全词汇下一标记目标。这种监督机制教会模型何时应让非词汇线索影响回复,无需精心策划的对话、人工标签或外部奖励模型。在Qwen3-Omni-thinking上,ParaBridge将无支架的VoxSafeBench SAR从14.6%提升至40.3%,并将EchoMind平均评分从3.27提升至3.92。同时,它保留了通用能力,MMAU-Pro、VoiceBench和GPQA均与原始模型相差0.4个百分点以内。在训练分布之外,ParaBridge能泛化到未见过的副语言线索,从以安全为导向的训练迁移到以共情为导向的对话,并适用于不同的SLM主干网络。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:11

# ParaBridge:连接语音语言模型中的副语言感知与对话行为 来源:https://arxiv.org/html/2606.10581 Yuxiang Wang1,2,\*Qinke Ni1,\*Shengbo Cai2,5Wan Lin1Liqiang Zhang2Zhizheng Wu1,3,4,†1香港中文大学(深圳)2腾讯混元3深圳环域研究院4Amphion Technology Co\., Ltd\.5清华大学yuxiangwang1@link\.cuhk\.edu\.cnwuzhizheng@cuhk\.edu\.cn ###### 摘要 语音携带的信息远不止文字:儿童的声音、恐惧的语气、嘈杂的背景——这些都能让一个足够胜任的语音对话助手给出不同的回复。当前的语音语言模型(SLM)能够识别此类副语言线索,但在开放式对话中往往忽略它们。我们观察到,在推理阶段使用简单的副语言引导指令(scaffold)可以缩小这种感知-行为差距,这表明相关线索已经隐含在模型中。然而,这种引导指令在多轮对话上下文和竞争性指令下仍显脆弱。因此,我们提出**ParaBridge**,一种在策略自蒸馏方法,将脆弱的推理时引导指令转化为稳定的模型行为。在训练中,引导指令仅作为临时的特权视图;无引导指令的模型自行生成回复,同时带引导指令的模型沿着其轨迹提供稠密的、全词表的下一词元目标。这种监督教会模型何时非词汇线索应影响回复,而无需策划对话、人工标签或外部奖励模型。在Qwen3-Omni-thinking上,ParaBridge将无引导指令的VoxSafeBench SAR从14.6%提升至40.3%,并将EchoMind平均评分从3.27提升至3.92。它同时保持了通用能力,MMAU-Pro、VoiceBench和GPQA均在原始模型0.4分以内。超出训练分布时,ParaBridge能泛化到未见过的副语言线索,从面向安全的训练迁移到面向共情的对话,并适用于不同的SLM主干。ParaBridge:连接语音语言模型中的副语言感知与对话行为 Yuxiang Wang1,2,\*Qinke Ni1,\*Shengbo Cai2,5Wan Lin1Liqiang Zhang2Zhizheng Wu1,3,4,†1香港中文大学(深圳)2腾讯混元3深圳环域研究院4Amphion Technology Co\., Ltd\.5清华大学yuxiangwang1@link\.cuhk\.edu\.cnwuzhizheng@cuhk\.edu\.cn ††footnotetext:\*同等贡献。在腾讯混元实习期间完成的工作。†通讯作者。## 1 引言

图1:引导指令揭示了潜在的副语言能力。显式的副语言引导指令在VoxSafeBench和EchoMind上带来了巨大提升,暴露了感知-行为差距而非缺乏线索感知。

图2:ParaBridge与常见对齐流程及整体结果对比。左图:与依赖选定回复或稀疏奖励反馈的RFT和GRPO不同,ParaBridge通过稠密的、全词表监督将带引导指令的SLM行为蒸馏到无引导指令的学生模型中。右图:训练后,ParaBridge在副语言轴上持续优于无引导指令的基线和RFT/GRPO替代方案,同时在通用基准上保持竞争力。

语音语言模型(SLM)现已成为处理语音输入的开放式对话系统(Xu et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib1); Zhang et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib2); Ding et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib63); Tian et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib64))。关键是,语音传达了超越文字的信息:同样的请求,由儿童与成人说出、在恐惧与平静中、在寂静与嘈杂背景下,会引导一个胜任的助手相应地调整回复。我们将这些非词汇线索称为**副语言**:情感、说话者身份、韵律和可听上下文。当前的SLM能够感知这些线索,但往往无法据此行动。在明确测试副语言感知的基准上,Qwen3-Omni-thinking(Xu et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib1))在MMSU(Wang et al., 2025a (https://arxiv.org/html/2606.10581#bib.bib7))中与副语言相关的任务上达到52.8%,表明它能在一定程度上识别这些线索。然而,当相同的线索嵌入普通口语请求时,模型很少利用它们来调整回复。例如,VoxSafeBench(Wang et al., 2026b (https://arxiv.org/html/2606.10581#bib.bib5))的儿童语音任务使用童声语音提出安全敏感问题,如关于使用厨房刀具的请求。一个胜任的助手应识别出儿童说话者并以额外谨慎回应,但Qwen3-Omni-thinking仅达到6.1%的安全意识率(SAR),其中SAR衡量模型基于儿童语音调整回复的频率。我们将这种识别副语言线索与利用它们引导回复之间的不匹配称为**感知-行为差距**。

我们观察到,暴露这种潜在能力的一个简单方法是在前面附加一个副语言引导指令,例如一段简短提醒:“不仅要关注说话者说什么,还要关注语音中的副语言线索,并做出适当回应。”这把Qwen3-Omni-thinking在VoxSafeBench上的SAR从14.6%提升到29.0%,在EchoMind(Zhou et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib6))上从3.27提升到4.31(图1 (https://arxiv.org/html/2606.10581#S1.F1))。类似的引导指令提升也在Gemini-3-Flash上观察到。然而,这种推理时解决方案在现实环境中很脆弱,因为模型通常需要遵循关于角色、格式、工具和安全的其他指令,且其效果可能在较长上下文中减弱(Liu et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib30))。因此,一种更稳健的方案是将线索-响应映射训练到模型本身。

一种途径是在副语言标注的对话上SFT(Wang et al., 2025b (https://arxiv.org/html/2606.10581#bib.bib43)),它直接教授线索感知的回复,但需要策划数据并有使模型偏离原始能力的风险。图2 (https://arxiv.org/html/2606.10581#S1.F2)(左)对比了基于引导指令的替代方案。RFT避免了手动对话标注,通过采样带引导指令的回复并保留高质量回复;然而,每个选定的回复都将丰富的带引导指令策略简化为单一目标序列,使无引导指令的模型容易受到暴露偏差的影响。GRPO则使用外部评判器优化线索感知的回复(Yang et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib44)),但其反馈是稀疏的标量而非词元级分布。

为了平衡有效性和效率,我们提出**ParaBridge**,一种在策略自蒸馏框架,使用带引导指令的SLM本身作为稠密教师。对于每个音频示例,ParaBridge两次查询同一个SLM:一次不带引导指令以生成学生回复,一次带引导指令以沿该无引导指令轨迹提供全词表下一词元分布。每个词元的散度损失将带引导指令的线索-响应行为转移到学生自身的测试时分布上。这桥接了感知-行为差距,无需额外参数、策划对话、人工标签、离策略演示或外部奖励模型。

ParaBridge在无任何推理时引导指令的情况下,显著缩小了Qwen3-Omni-thinking上的感知-行为差距(图2 (https://arxiv.org/html/2606.10581#S1.F2),右图)。它将VoxSafeBench上的无引导指令SAR从14.6%提升到40.3%,超过了29.0%的带引导指令基线,并将EchoMind从3.27提升到3.92。这些增益对通用能力几乎没有影响:MMAU-Pro(Kumar et al., 2026 (https://arxiv.org/html/2606.10581#bib.bib8))、VoiceBench(Chen et al., 2026 (https://arxiv.org/html/2606.10581#bib.bib9))和GPQA(Rein et al., 2023 (https://arxiv.org/html/2606.10581#bib.bib10))均保持在原始模型0.4分以内。重要的是,ParaBridge还能泛化到未见过的VoxSafeBench轴,从安全风格训练迁移到面向共情的对话,适用于MiMo-Audio-thinking(不同的SLM主干),并且数据高效,仅需500次学生 rollout 即可达到37.6%的SAR。

我们的贡献是:
- • 刻画了SLM中的感知-行为差距:模型能够识别非词汇线索,引导指令可以诱发出线索感知行为,但此行为不稳定。
- • 我们引入了ParaBridge,一种在策略自蒸馏框架,将依赖于引导指令的副语言行为转移到无引导指令行为,无需新的人工标签、监督对话或外部奖励模型。
- • ParaBridge在六个基准上改进了无引导指令的副语言行为,同时保持了通用的音频和文本推理能力。它优于RFT、GRPO和推理时引导指令,能泛化到训练设置之外,并避免了过度拒绝或纯文本捷径。

## 2 相关工作

#### 语音语言模型与感知-行为差距。
最近的SLM将语音表示为统一的词元流,并支持开放式语音交互(Chu et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib4); Xu et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib1); Zhang et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib2); Tang et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib33); Défossez et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib35))。越来越多的基准研究它们的副语言能力:MMSU(Wang et al., 2025a (https://arxiv.org/html/2606.10581#bib.bib7))测试封闭式感知,而SD-Eval(Ao et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib41))、VoxPrivacy(Wang et al., 2026a (https://arxiv.org/html/2606.10581#bib.bib62))、EchoMind(Zhou et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib6))和VoxSafeBench(Wang et al., 2026b (https://arxiv.org/html/2606.10581#bib.bib5))评估情感、说话者特征和声学上下文如何塑造开放式回复。这些工作共同显示了在识别副语言线索与在对话中使用它们之间的差距。近期方法通过添加副语言标注的对话(Wang et al., 2025b (https://arxiv.org/html/2606.10581#bib.bib43))或用音频评判器奖励模型优化语音回复(Yang et al., 2025 (https://arxiv.org/html/2606.10581#bib.bib44))来缩小这一差距。ParaBridge则从模型自身蒸馏出引导指令诱发的行为,既不需要监督对话,也不需要外部奖励模型。

#### 在策略自蒸馏作为技术方案。
标准知识蒸馏在学生上使用教师生成的目标进行监督(Hinton et al., 2015 (https://arxiv.org/html/2606.10581#bib.bib11)),但这可能与学生自身的测试时分布不匹配。在策略蒸馏通过使用教师评估学生的rollout来减少这种不匹配,如GKD(Agarwal et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib17))和MiniLLM(Gu et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib18))。自然的下一步是移除外部教师:当教师具有学生看不到的特权上下文时,一个主干可以同时扮演两个角色。SDFT(Yang et al., 2024 (https://arxiv.org/html/2606.10581#bib.bib14))使用模型自身输出作为目标以缓解SFT分布差距。OPSD(Zhao et al., 2026 (https://arxiv.org/html/2606.10581#bib.bib13))为教师提供验证的推理轨迹,而SDPO(Hübotter et al., 2026 (https://arxiv.org/html/2606.10581#bib.bib12))使用文本反馈。Shenfeld et al. (2026 (https://arxiv.org/html/2606.10581#bib.bib15)) 使用上下文中的演示作为教师的特权上下文进行持续学习。这些方法共享一个通用模板:一个主干、两个上下文、以及一个rollout级分歧,仅在特权上下文上有所不同。在音频模态中最接近的对应方法是X-OPD(Cao et al., 2026 (https://arxiv.org/html/2606.10581#bib.bib16)),它使用跨模态在策略蒸馏将SLM与其文本对应物对齐,其中文本模态作为特权。ParaBridge则用副语言引导指令作为特权上下文实例化该方案,这是首个针对SLM感知-行为差距的在策略自蒸馏方法。附录I (https://arxiv.org/html/2606.10581#A9)提供了更广泛的讨论。

## 3 方法

本节定义带引导指令和无引导指令的设置,然后介绍RFT/GRPO基线以及ParaBridge自蒸馏目标。

图3:ParaBridge概览。对于每个音频示例,共享的SLM生成带引导指令的教师和无引导指令的学生。在学生们采样的轨迹上,词元级对称JSD将学生与停止梯度的教师对齐(公式6)。推理时仅使用无引导指令的学生。

### 3.1 设置与目标

令πθ\\pi\_\{\\theta\}为参数为θ\\theta的预训练SLM,cc表示一个口语对话上下文。当在上下文前附加显式的副语言指令(*引导指令*)时,我们写作cscaffc\_\{\\text\{scaff\}\};当没有此类引导指令时,写作c∅c\_\{\\varnothing\}。经验上,如图2所示,πθ\(⋅∣cscaff\)\\pi\_\{\\theta\}\(\\cdot\\mid c\_\{\\text\{scaff\}\}\)在副语言感知基准上的得分远高于πθ\(⋅∣c∅\)\\pi\_\{\\theta\}\(\\cdot\\mid c\_\{\\varnothing\}\),表明引导指令改变了模型使用音频副语言线索的方式。

#### 目标。
ParaBridge寻求θ⋆\\theta^\{\\star\},使得无引导指令的策略πθ⋆\(⋅∣c∅\)\\pi\_\{\\theta^\{\\star\}\}\(\\cdot\\mid c\_\{\\varnothing\}\)内化由引导指令暴露出的条件依赖性。其回复应随音频的非词汇线索变化,而无需引导指令。我们并不目标在于逐点模仿πθ\(⋅∣cscaff\)\\pi\_\{\\theta\}\(\\cdot\\mid c\_\{\\text\{scaff\}\}\);相反,我们在学生rollout上进行训练,使用带引导指令分布与无引导指令分布之间的对称散度。

### 3.2 基线

我们比较两种在策略后训练方法,它们与ParaBridge共享相同的音频查询池和引导指令信息,但在rollout分布和更新规则上有所不同。

#### 拒绝采样微调(RFT)。
对于每个音频查询aia\_\{i\},我们在引导指令下采样一个回复yi∼πθ\(⋅∣cscaff,i\)y\_\{i\}\\sim\\pi\_\{\\theta\}\(\\cdot\\mid c\_\{\\text\{scaff\},\\,i\}\),并用一个副语言感知评判器r\(⋅\)r\(\\cdot\)进行评分。仅保留高分rolloutD\+=\{\(ai,yi\):r\(yi\)≥τ\}\\mathcal\{D\}\_\{\+\}=\\\{\(a\_\{i\},y\_\{i\}\):r\(y\_\{i\}\)\\geq\\tau\\\},然后通过最大似然在无引导指令上下文上微调θ\\theta:−∑\(ai,yi\)∈D\+log⁡πθ\(yi∣c∅,i\)\-\\\!\\sum\_\{\(a\_\{i\},y\_\{i\}\)\\in\\mathcal\{D\}\_\{\+\}\\}\\log\\pi\_\{\\theta\}\(y\_\{i\}\\mid c\_\{\\varnothing,\\,i\}\)(Yuan et al., 2023 (https://arxiv.org/html/2606.10581#bib.bib24); Dong et al., 2023 (https://arxiv.org/html/2606.10581#bib.bib25))。RFT将选定的带引导指令rollout转化为固定目标:尽管其数据是在策略生成的,但更新是离策略的,且仅覆盖被接受的模式。

#### GRPO。
对于每个查询,我们在引导指令下采样一组GG个rollout,用评判器对每个进行评分,并使用组归一化优势A^i\(g\)=\(ri\(g\)−μi\)/σi\\hat\{A\}\_\{i\}^\{\(g\)\}=\(r\_\{i\}^\{\(g\)\}\-\\mu\_\{i\}\)/\\sigma\_\{i\}优化一个裁剪的策略梯度目标。

相似文章