speech-language-models

#speech-language-models

交错式语音语言模型在文本空间中隐式工作

Hugging Face Daily Papers ↗ · 2026-06-21 缓存

本文揭示了交错式语音-文本语言模型在中间层隐式地将语音转录为文本，然后在文本空间中进行预测，再转换回语音，揭示了内部模态交互机制。

0 人收藏 0 人点赞

#speech-language-models

arXiv cs.CL ↗ · 2026-06-10 缓存

ParaBridge是一种基于策略的自蒸馏方法，旨在弥合语音语言模型中副语言感知与对话行为之间的差距，在不依赖外部奖励的情况下显著提升安全性和共情能力。

0 人收藏 0 人点赞

#speech-language-models

arXiv cs.CL ↗ · 2026-05-22 缓存

本文研究了在文本语言模型中学到的事实回忆机制是否会迁移到多模态语音语言模型中的语音模态。通过对SpiritLM进行因果中介分析，发现这些机制仅部分迁移，凸显了文本与语音处理之间的差异。

0 人收藏 0 人点赞

#speech-language-models

X AI KOLs Timeline ↗ · 2026-05-14 缓存

GitHub 上的 Awesome-SpeechLM-Survey 仓库系统整理了语音语言模型的研究脉络，包括分类框架、代表模型、训练数据集和评测基准，是了解该领域的知识地图。

0 人收藏 0 人点赞

#speech-language-models

arXiv cs.CL ↗ · 2026-04-20 缓存

MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合，在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识，而不会打断对话的自然流程。

0 人收藏 0 人点赞

#speech-language-models

arXiv cs.CL ↗ · 2026-04-20 缓存

MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准，解决轮转边界模糊和上下文不一致等挑战，同时评估对话特征、对话质量、指令遵循和安全性。

0 人收藏 0 人点赞