使用稀疏自编码器解释与引导文本转语音语言模型

Hugging Face Daily Papers 2026/06/08 18:09 论文

interpretability sparse-autoencoders text-to-speech language-models steering cosyvoice3 prosody-control

摘要

本文对CosyVoice3文本转语音语言模型应用稀疏自编码器，发现可解释的特征，这些特征可被引导以控制笑声、说话者性别和语速等属性，同时保留内容。

语言模型日益成为文本转语音（TTS）系统的骨干，然而我们对它们在文本和生成的语音令牌共享同一残差流时所构建的表征知之甚少。我们在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器，并引入一个模态感知的自动解释管道，从特征触发的位置（文本前缀上下文、1秒语音片段或两者）对每个特征进行标记。恢复的特征是可解释的，涵盖音素、笑声、口音提示和说话者性别。通过SAE潜在空间进行引导表明，这些特征具有因果性而不仅仅是描述性：有针对性的干预将笑声概率从0.02提升至0.79，翻转感知的说话者性别，并在保留语音内容的同时控制语速。因此，SAE特征既作为可解释性对象，也作为TTS合成的控制方向。

查看原文

查看缓存全文

缓存时间: 2026/06/10 09:43

论文页面 - 使用稀疏自编码器解释和引导文本转语音语言模型

来源：https://huggingface.co/papers/2606.10029

摘要

在语言模型表示上训练的稀疏自编码器揭示了语音合成中可解释的特征，这些特征可以通过操作来控制语言和韵律属性。

语言模型（https://huggingface.co/papers?q=Language%20models）日益成为文本转语音（https://huggingface.co/papers?q=text-to-speech）（TTS）系统的核心，但我们对它们在文本与生成的语音令牌共享单一残差流（https://huggingface.co/papers?q=residual%20stream）时所构建的表示了解甚少。我们在CosyVoice3的语言模型骨干上训练了BatchTopK稀疏自编码器（https://huggingface.co/papers?q=sparse%20autoencoders），并引入了一种模态感知的自动解释管道（https://huggingface.co/papers?q=auto-interp%20pipeline），该管道根据特征激活的位置——文本前缀上下文、1秒语音片段或两者兼有——来标记每个特征。恢复的特征是可解释的，涵盖音素（https://huggingface.co/papers?q=phonemes）、笑声（https://huggingface.co/papers?q=laughter）、口音提示（https://huggingface.co/papers?q=accent%20prompts）和说话者性别（https://huggingface.co/papers?q=speaker%20gender）。通过SAE潜在空间（https://huggingface.co/papers?q=latent%20space）进行引导表明，这些特征是因果关系而不仅仅是描述性的：有针对性的干预将笑声概率从0.02提升到0.79，翻转感知到的说话者性别，并在保持口语内容的同时控制语速。因此，SAE特征既可以作为可解释性对象，也可以作为TTS合成的控制方向。

查看 arXiv 页面（https://arxiv.org/abs/2606.10029）查看PDF（https://arxiv.org/pdf/2606.10029）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.10029）

社区

论文提交者

大约1小时前（https://huggingface.co/papers/2606.10029#6a292142ce5c73c8f06e19ca）

将SAE引入文本转语音模型！

目前，对CosyVoice3等TTS模型的控制仅限于提示或预定义标签。我们发现，通过引导SAE特征可以精确编辑模型生成的内容。

我们还分析了这些特征：有些是仅音频的，有些仅在文本上激活，还有一些同时在文本和音频上激活。此外，我们为所有特征引入了一个自动解释管道。

我们计划很快发布SAE权重和代码！

通过拖拽文本输入、粘贴或点击此处上传图像、音频和视频。

点击或在此处粘贴以上传图片

在您的代理中获取此论文：

hf papers read 2606.10029

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10029 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10029 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.10029 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以从此页面链接。

使用稀疏自编码器解释与引导文本转语音语言模型

论文页面 - 使用稀疏自编码器解释和引导文本转语音语言模型

摘要

社区

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

利用语言模型的稀疏特征解读大脑对语言的反应

扩展单义性：从Claude 3 Sonnet中提取可解释特征

通过稀疏自编码器实现脑电图基础模型的机制可解释性

多语言设计导向的调控：多语言稀疏自编码器与原则性层选择

量化如何改变可解释特征：语言模型的稀疏自编码器分析

提交意见反馈