WavAlign：通过自适应混合后训练提升口语对话模型的智能与表现力

Hugging Face Daily Papers 2026/04/16 00:00 论文

摘要

WavAlign 提出一种模态感知的自适应后训练方法，利用受限偏好更新与显式锚定，在端到端口语对话模型中同步提升语义质量与语音表现力。

端到端口语对话模型因其在表现力与感知能力上拥有比级联系统更高的天花板，近年来备受关注。然而，当前开源口语对话模型的智能与表现力仍常低于预期。受在线强化学习（RL）在其他领域成功的启发，有人可能尝试直接将偏好优化迁移到口语对话模型，但这一迁移并不简单。我们从奖励建模与轨迹采样的角度剖析障碍，重点分析稀疏偏好监督如何在共享参数更新中与密集语音生成相互作用。基于此，我们提出一种模态感知的自适应后训练方案，让 RL 在口语对话中切实可行：该方法将偏好更新限制在语义通道，并通过显式锚定改善声学行为，同时根据 rollout 统计动态调节二者混合比例，避免不可靠的偏好梯度。我们在多个口语对话基准与代表性架构上评估，观察到语义质量与语音表现力的一致提升。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - WavAlign：通过自适应混合后训练提升口语对话模型的智能与表现力

来源：https://huggingface.co/papers/2604.14932

摘要

尽管采用端到端方法，口语对话模型在表现力方面仍面临挑战；而一种模态感知的自适应后训练方法，通过受限偏好更新与显式锚定，同时提升了语义质量与语音表现力。

端到端口语对话模型（https://huggingface.co/papers?q=spoken%20dialogue%20models）因其在表现力和感知能力上比级联系统具有更高潜力而备受关注。然而，当前开源口语对话模型的智能与表现力常低于预期。受在线强化学习（https://huggingface.co/papers?q=reinforcement%20learning）在其他领域成功的启发，人们可能尝试直接将偏好优化（https://huggingface.co/papers?q=preference%20optimization）迁移到口语对话模型，但此迁移并非易事。我们从奖励建模（https://huggingface.co/papers?q=reward%20modeling）和 rollout 采样（https://huggingface.co/papers?q=rollout%20sampling）的角度分析障碍，重点研究稀疏偏好监督（https://huggingface.co/papers?q=preference%20supervision）如何在共享参数更新（https://huggingface.co/papers?q=shared-parameter%20updates）下与密集语音生成相互作用。基于此分析，我们提出一种模态感知自适应后训练（https://huggingface.co/papers?q=modality-aware%20adaptive%20post-training）方案，使强化学习在口语对话中切实可行：将偏好更新限制在语义通道（https://huggingface.co/papers?q=semantic%20channel），并通过显式锚定（https://huggingface.co/papers?q=explicit%20anchoring）改善声学行为（https://huggingface.co/papers?q=acoustic%20behavior），同时根据 rollout 统计动态调节二者混合比例，避免不可靠的偏好梯度。我们在多个口语对话基准和代表性架构上评估该方法，观察到语义质量与语音表现力的一致提升。

查看 arXiv 页面（https://arxiv.org/abs/2604.14932）查看 PDF（https://arxiv.org/pdf/2604.14932）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.14932）

在智能体中获取该论文：

hf papers read 2604.14932

尚未安装最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.14932，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.14932，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.14932，即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录此论文

将该论文添加到合集（https://huggingface.co/new-collection），即可在此页面显示链接。

WavAlign：通过自适应混合后训练提升口语对话模型的智能与表现力

论文页面 - WavAlign：通过自适应混合后训练提升口语对话模型的智能与表现力

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具（兼容HF Hub上的所有w2v2模型）[P]

WildFeedback: 通过原位用户交互和反馈对齐大语言模型

VoxMind：端到端智能体语音对话系统

基于对比 LLM 微调对齐对话附和信号与语境表征

OpenAI的新语音模型不止于回话

提交意见反馈