MoVE:通过语音专家混合模型在语音到语音翻译中保留笑声与哭泣

Hugging Face Daily Papers 论文

摘要

MoVE 提出一种 Mixture-of-LoRA-Experts 架构,在仅 30 分钟精选数据下即可在语音到语音翻译中保留 76% 的非语言发声(笑声、哭泣)。

当前语音到语音翻译(S2ST)系统在语义准确率上表现强劲,却一致地剥离了笑声、哭泣等非语言发声(NVs),而这些发声承载着重要的语用意图,严重限制了实际应用。我们提出三项贡献解决该问题。第一,设计一条合成流水线,构建可扩展的情感数据集,突破数据稀缺瓶颈。第二,提出 MoVE,一种 Mixture-of-LoRA-Experts 架构,配备情感专用适配器与软加权路由器,混合专家以捕捉复合情感状态。第三,证明预训练 AudioLLM 带来惊人的数据效率:仅需 30 分钟精选数据即可取得优异性能。在英中 S2ST 任务中,与强基线相比,MoVE 在 76% 的样本中成功再现目标 NVs,并在人类评估的自然度与情感保真度上均居首位,而现有 S2ST 系统最多只能保留 14% 的 NVs。
查看原文
查看缓存全文

缓存时间: 2026/04/22 14:41

论文页面 - MoVE:通过混合发声专家在语音到语音翻译中传递笑声与泪水

来源:https://huggingface.co/papers/2604.17435
发布于 4 月 19 日

·

由 https://huggingface.co/47z 提交

陳思齊 (https://huggingface.co/47z) 于 4 月 22 日

摘要

MoVE 采用“混合 LoRA 专家”架构,配备情感专用适配器与软加权路由器,可在仅使用极少精选数据的前提下,实现高自然度、高情感保真的语音到语音翻译,同时保留非语言发声。

近期语音到语音翻译(Speech-to-Speech Translation, S2ST)系统虽语义准确,却普遍滤除笑声、哭泣等传递语用意图的非语言发声(non-verbal vocalizations, NVs),严重削弱其实用性。我们提出三项贡献:

  1. 构建可扩展情感数据集的合成管线,解决数据稀缺难题;
  2. 提出 MoVE——混合 LoRA 专家架构,含情感专用适配器与软加权路由器,融合多位专家以捕捉复合情感状态;
  3. 证明预训练 AudioLLM 具备惊人数据效率:仅需 30 分钟精选数据即可取得强劲表现。

在英中 S2ST 任务上,与强基线对比,MoVE 在 76% 的样本中成功再现目标 NVs,人类评分自然度与情感保真度均居首位,而现有 S2ST 系统最多仅保留 14% 的 NVs。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17435)
查看 PDF (https://arxiv.org/pdf/2604.17435)
GitHub0 (https://github.com/47zzz/MoVE)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17435)

在智能体中阅读本文:

hf papers read 2604.17435

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。

收录该论文的合集 0

暂无合集收录该论文

将该论文加入合集 (https://huggingface.co/new-collection) 即可在此显示。

相似文章

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL

提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

MultiLinguahah:一种新的无监督多语言声学笑声分割方法

arXiv cs.CL

本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。

Descript 如何大规模实现多语言视频配音

OpenAI Blog

Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。