使用稀疏自编码器解释与引导文本转语音语言模型
摘要
本文对CosyVoice3文本转语音语言模型应用稀疏自编码器,发现可解释的特征,这些特征可被引导以控制笑声、说话者性别和语速等属性,同时保留内容。
查看缓存全文
缓存时间: 2026/06/10 09:43
论文页面 - 使用稀疏自编码器解释和引导文本转语音语言模型
来源:https://huggingface.co/papers/2606.10029
摘要
在语言模型表示上训练的稀疏自编码器揭示了语音合成中可解释的特征,这些特征可以通过操作来控制语言和韵律属性。
语言模型(https://huggingface.co/papers?q=Language%20models)日益成为文本转语音(https://huggingface.co/papers?q=text-to-speech)(TTS)系统的核心,但我们对它们在文本与生成的语音令牌共享单一残差流(https://huggingface.co/papers?q=residual%20stream)时所构建的表示了解甚少。我们在CosyVoice3的语言模型骨干上训练了BatchTopK稀疏自编码器(https://huggingface.co/papers?q=sparse%20autoencoders),并引入了一种模态感知的自动解释管道(https://huggingface.co/papers?q=auto-interp%20pipeline),该管道根据特征激活的位置——文本前缀上下文、1秒语音片段或两者兼有——来标记每个特征。恢复的特征是可解释的,涵盖音素(https://huggingface.co/papers?q=phonemes)、笑声(https://huggingface.co/papers?q=laughter)、口音提示(https://huggingface.co/papers?q=accent%20prompts)和说话者性别(https://huggingface.co/papers?q=speaker%20gender)。通过SAE潜在空间(https://huggingface.co/papers?q=latent%20space)进行引导表明,这些特征是因果关系而不仅仅是描述性的:有针对性的干预将笑声概率从0.02提升到0.79,翻转感知到的说话者性别,并在保持口语内容的同时控制语速。因此,SAE特征既可以作为可解释性对象,也可以作为TTS合成的控制方向。
查看 arXiv 页面(https://arxiv.org/abs/2606.10029)查看PDF(https://arxiv.org/pdf/2606.10029)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10029)
社区
论文提交者
大约1小时前(https://huggingface.co/papers/2606.10029#6a292142ce5c73c8f06e19ca)
将SAE引入文本转语音模型!
目前,对CosyVoice3等TTS模型的控制仅限于提示或预定义标签。我们发现,通过引导SAE特征可以精确编辑模型生成的内容。
我们还分析了这些特征:有些是仅音频的,有些仅在文本上激活,还有一些同时在文本和音频上激活。此外,我们为所有特征引入了一个自动解释管道。
我们计划很快发布SAE权重和代码!
通过拖拽文本输入、粘贴或点击此处上传图像、音频和视频。
点击或在此处粘贴以上传图片
在您的代理中获取此论文:
hf papers read 2606.10029
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.10029 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.10029 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.10029 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
利用语言模型的稀疏特征解读大脑对语言的反应
本文介绍了Augmented Sparse Encoding Models,利用语言模型的稀疏特征解读大脑对语言的反应,并在高场7T fMRI数据上进行了验证。该模型恢复了已知的神经调谐特性,并发现了一个新的体素群体,该群体对与人相关的内容具有调谐特性。
扩展单义性:从Claude 3 Sonnet中提取可解释特征
本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。
通过稀疏自编码器实现脑电图基础模型的机制可解释性
本文对三个脑电图基础模型(SleepFM、REVE、LaBraM)应用TopK稀疏自编码器,提取可解释的特征字典,并引入了概念引导框架,揭示了表征失败和临床纠缠问题。
多语言设计导向的调控:多语言稀疏自编码器与原则性层选择
本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。
量化如何改变可解释特征:语言模型的稀疏自编码器分析
本文研究了在全精度语言模型中由稀疏自编码器识别的可解释特征在量化后是否仍然忠实,发现系统性的退化,而像困惑度这样的行为指标可能无法捕捉到这种退化。