MoVE：通过语音专家混合模型在语音到语音翻译中保留笑声与哭泣

Hugging Face Daily Papers 2026/04/19 00:00 论文

摘要

MoVE 提出一种 Mixture-of-LoRA-Experts 架构，在仅 30 分钟精选数据下即可在语音到语音翻译中保留 76% 的非语言发声（笑声、哭泣）。

当前语音到语音翻译（S2ST）系统在语义准确率上表现强劲，却一致地剥离了笑声、哭泣等非语言发声（NVs），而这些发声承载着重要的语用意图，严重限制了实际应用。我们提出三项贡献解决该问题。第一，设计一条合成流水线，构建可扩展的情感数据集，突破数据稀缺瓶颈。第二，提出 MoVE，一种 Mixture-of-LoRA-Experts 架构，配备情感专用适配器与软加权路由器，混合专家以捕捉复合情感状态。第三，证明预训练 AudioLLM 带来惊人的数据效率：仅需 30 分钟精选数据即可取得优异性能。在英中 S2ST 任务中，与强基线相比，MoVE 在 76% 的样本中成功再现目标 NVs，并在人类评估的自然度与情感保真度上均居首位，而现有 S2ST 系统最多只能保留 14% 的 NVs。

查看原文

查看缓存全文

缓存时间: 2026/04/22 14:41

论文页面 - MoVE：通过混合发声专家在语音到语音翻译中传递笑声与泪水

来源：https://huggingface.co/papers/2604.17435
发布于 4 月 19 日

由 https://huggingface.co/47z 提交

陳思齊 (https://huggingface.co/47z) 于 4 月 22 日

摘要

MoVE 采用“混合 LoRA 专家”架构，配备情感专用适配器与软加权路由器，可在仅使用极少精选数据的前提下，实现高自然度、高情感保真的语音到语音翻译，同时保留非语言发声。

近期语音到语音翻译（Speech-to-Speech Translation, S2ST）系统虽语义准确，却普遍滤除笑声、哭泣等传递语用意图的非语言发声（non-verbal vocalizations, NVs），严重削弱其实用性。我们提出三项贡献：

构建可扩展情感数据集的合成管线，解决数据稀缺难题；
提出 MoVE——混合 LoRA 专家架构，含情感专用适配器与软加权路由器，融合多位专家以捕捉复合情感状态；
证明预训练 AudioLLM 具备惊人数据效率：仅需 30 分钟精选数据即可取得强劲表现。

在英中 S2ST 任务上，与强基线对比，MoVE 在 76% 的样本中成功再现目标 NVs，人类评分自然度与情感保真度均居首位，而现有 S2ST 系统最多仅保留 14% 的 NVs。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17435)
查看 PDF (https://arxiv.org/pdf/2604.17435)
GitHub0 (https://github.com/47zzz/MoVE)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17435)

在智能体中阅读本文：

hf papers read 2604.17435

未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17435 即可在此显示。

收录该论文的合集 0

暂无合集收录该论文

将该论文加入合集 (https://huggingface.co/new-collection) 即可在此显示。

MoVE：通过语音专家混合模型在语音到语音翻译中保留笑声与哭泣

论文页面 - MoVE：通过混合发声专家在语音到语音翻译中传递笑声与泪水

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

基于SpeechLLM的流式语音转文本翻译

Transformer 中的专家混合模型 (MoEs)

MultiLinguahah：一种新的无监督多语言声学笑声分割方法

Descript 如何大规模实现多语言视频配音

XPERT：通过专家知识迁移实现语言模型的高效训练

提交意见反馈