WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力
摘要
WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。
查看缓存全文
缓存时间: 2026/04/23 03:35
论文页面 - WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力
来源:https://huggingface.co/papers/2604.14932
摘要
尽管采用端到端方法,口语对话模型在表现力方面仍面临挑战;而一种模态感知的自适应后训练方法,通过受限偏好更新与显式锚定,同时提升了语义质量与语音表现力。
端到端口语对话模型(https://huggingface.co/papers?q=spoken%20dialogue%20models)因其在表现力和感知能力上比级联系统具有更高潜力而备受关注。然而,当前开源口语对话模型的智能与表现力常低于预期。受在线强化学习(https://huggingface.co/papers?q=reinforcement%20learning)在其他领域成功的启发,人们可能尝试直接将偏好优化(https://huggingface.co/papers?q=preference%20optimization)迁移到口语对话模型,但此迁移并非易事。我们从奖励建模(https://huggingface.co/papers?q=reward%20modeling)和 rollout 采样(https://huggingface.co/papers?q=rollout%20sampling)的角度分析障碍,重点研究稀疏偏好监督(https://huggingface.co/papers?q=preference%20supervision)如何在共享参数更新(https://huggingface.co/papers?q=shared-parameter%20updates)下与密集语音生成相互作用。基于此分析,我们提出一种模态感知自适应后训练(https://huggingface.co/papers?q=modality-aware%20adaptive%20post-training)方案,使强化学习在口语对话中切实可行:将偏好更新限制在语义通道(https://huggingface.co/papers?q=semantic%20channel),并通过显式锚定(https://huggingface.co/papers?q=explicit%20anchoring)改善声学行为(https://huggingface.co/papers?q=acoustic%20behavior),同时根据 rollout 统计动态调节二者混合比例,避免不可靠的偏好梯度。我们在多个口语对话基准和代表性架构上评估该方法,观察到语义质量与语音表现力的一致提升。
查看 arXiv 页面(https://arxiv.org/abs/2604.14932)查看 PDF(https://arxiv.org/pdf/2604.14932)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.14932)
在智能体中获取该论文:
hf papers read 2604.14932
尚未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.14932,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.14932,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.14932,即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录此论文
将该论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示链接。
相似文章
easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具(兼容HF Hub上的所有w2v2模型)[P]
easyaligner是一个开源强制对齐库,具有GPU加速和灵活的文本归一化功能,适配Hugging Face Hub上的所有wav2vec2模型。它针对实际工作流进行了优化,可以处理部分转录、无关语音段落和长音频(无需分块),同时保留原始文本格式。
WildFeedback: 通过原位用户交互和反馈对齐大语言模型
WildFeedback是一个新颖的框架,它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集,用于将语言模型与人类偏好对齐,解决了传统基于标注的对齐方法中的可扩展性和偏差问题。
VoxMind:端到端智能体语音对话系统
VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。