audio-llms

#audio-llms

面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL ↗ · 2026-05-26 缓存

本文应用直接偏好优化（DPO）来对齐音频大语言模型，以转录中英文混合语音，在分布内实现了高达89.6%的MER降低，在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

0 人收藏 0 人点赞

#audio-llms

arXiv cs.CL ↗ · 2026-05-26 缓存

EchoDistill 是一种基于对齐的噪声到干净的自蒸馏框架，通过使用冻结的干净音频教师模型，利用组相对策略优化 (GRPO) 指导学生模型，从而提高音频大语言模型 (ALLMs) 在现实噪声下的鲁棒性。实验表明，在强噪声下，该方法显著提升了语义可靠性和任务性能，且无需额外推理成本。

0 人收藏 0 人点赞