WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力

Hugging Face Daily Papers 论文

摘要

WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。

端到端口语对话模型因其在表现力与感知能力上拥有比级联系统更高的天花板,近年来备受关注。然而,当前开源口语对话模型的智能与表现力仍常低于预期。受在线强化学习(RL)在其他领域成功的启发,有人可能尝试直接将偏好优化迁移到口语对话模型,但这一迁移并不简单。我们从奖励建模与轨迹采样的角度剖析障碍,重点分析稀疏偏好监督如何在共享参数更新中与密集语音生成相互作用。基于此,我们提出一种模态感知的自适应后训练方案,让 RL 在口语对话中切实可行:该方法将偏好更新限制在语义通道,并通过显式锚定改善声学行为,同时根据 rollout 统计动态调节二者混合比例,避免不可靠的偏好梯度。我们在多个口语对话基准与代表性架构上评估,观察到语义质量与语音表现力的一致提升。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力

来源:https://huggingface.co/papers/2604.14932

摘要

尽管采用端到端方法,口语对话模型在表现力方面仍面临挑战;而一种模态感知的自适应后训练方法,通过受限偏好更新与显式锚定,同时提升了语义质量与语音表现力。

端到端口语对话模型(https://huggingface.co/papers?q=spoken%20dialogue%20models)因其在表现力和感知能力上比级联系统具有更高潜力而备受关注。然而,当前开源口语对话模型的智能与表现力常低于预期。受在线强化学习(https://huggingface.co/papers?q=reinforcement%20learning)在其他领域成功的启发,人们可能尝试直接将偏好优化(https://huggingface.co/papers?q=preference%20optimization)迁移到口语对话模型,但此迁移并非易事。我们从奖励建模(https://huggingface.co/papers?q=reward%20modeling)和 rollout 采样(https://huggingface.co/papers?q=rollout%20sampling)的角度分析障碍,重点研究稀疏偏好监督(https://huggingface.co/papers?q=preference%20supervision)如何在共享参数更新(https://huggingface.co/papers?q=shared-parameter%20updates)下与密集语音生成相互作用。基于此分析,我们提出一种模态感知自适应后训练(https://huggingface.co/papers?q=modality-aware%20adaptive%20post-training)方案,使强化学习在口语对话中切实可行:将偏好更新限制在语义通道(https://huggingface.co/papers?q=semantic%20channel),并通过显式锚定(https://huggingface.co/papers?q=explicit%20anchoring)改善声学行为(https://huggingface.co/papers?q=acoustic%20behavior),同时根据 rollout 统计动态调节二者混合比例,避免不可靠的偏好梯度。我们在多个口语对话基准和代表性架构上评估该方法,观察到语义质量与语音表现力的一致提升。

查看 arXiv 页面(https://arxiv.org/abs/2604.14932)查看 PDF(https://arxiv.org/pdf/2604.14932)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14932)

在智能体中获取该论文:

hf papers read 2604.14932

尚未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.14932,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.14932,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.14932,即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录此论文

将该论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示链接。

相似文章

VoxMind:端到端智能体语音对话系统

Hugging Face Daily Papers

VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。

基于对比 LLM 微调对齐对话附和信号与语境表征

arXiv cs.CL

KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。