MoVE:通过语音专家混合模型在语音到语音翻译中保留笑声与哭泣
摘要
MoVE 提出一种 Mixture-of-LoRA-Experts 架构,在仅 30 分钟精选数据下即可在语音到语音翻译中保留 76% 的非语言发声(笑声、哭泣)。
查看缓存全文
缓存时间: 2026/04/22 14:41
论文页面 - MoVE:通过混合发声专家在语音到语音翻译中传递笑声与泪水
来源:https://huggingface.co/papers/2604.17435
发布于 4 月 19 日
·
由 https://huggingface.co/47z 提交
陳思齊 (https://huggingface.co/47z) 于 4 月 22 日
摘要
MoVE 采用“混合 LoRA 专家”架构,配备情感专用适配器与软加权路由器,可在仅使用极少精选数据的前提下,实现高自然度、高情感保真的语音到语音翻译,同时保留非语言发声。
近期语音到语音翻译(Speech-to-Speech Translation, S2ST)系统虽语义准确,却普遍滤除笑声、哭泣等传递语用意图的非语言发声(non-verbal vocalizations, NVs),严重削弱其实用性。我们提出三项贡献:
- 构建可扩展情感数据集的合成管线,解决数据稀缺难题;
- 提出 MoVE——混合 LoRA 专家架构,含情感专用适配器与软加权路由器,融合多位专家以捕捉复合情感状态;
- 证明预训练 AudioLLM 具备惊人数据效率:仅需 30 分钟精选数据即可取得强劲表现。
在英中 S2ST 任务上,与强基线对比,MoVE 在 76% 的样本中成功再现目标 NVs,人类评分自然度与情感保真度均居首位,而现有 S2ST 系统最多仅保留 14% 的 NVs。
查看 arXiv 页面 (https://arxiv.org/abs/2604.17435)
查看 PDF (https://arxiv.org/pdf/2604.17435)
GitHub0 (https://github.com/47zzz/MoVE)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17435)
在智能体中阅读本文:
hf papers read 2604.17435
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。
引用该论文的 Spaces 0
暂无 Space 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。
收录该论文的合集 0
暂无合集收录该论文
将该论文加入合集 (https://huggingface.co/new-collection) 即可在此显示。
相似文章
基于SpeechLLM的流式语音转文本翻译
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。
MultiLinguahah:一种新的无监督多语言声学笑声分割方法
本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。
Descript 如何大规模实现多语言视频配音
Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。