Aratako/Irodori-TTS-500M-v3
摘要
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。
查看缓存全文
缓存时间: 2026/05/18 00:28
Aratako/Irodori-TTS-500M-v3 · Hugging Face
来源:https://huggingface.co/Aratako/Irodori-TTS-500M-v3
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#irodori-tts-500m-v3Irodori-TTS-500M-v3
代码(https://github.com/Aratako/Irodori-TTS)WandB(https://api.wandb.ai/links/aratako-lm/2ctrvcim)演示空间(https://huggingface.co/spaces/Aratako/Irodori-TTS-500M-v3-Demo)
Irodori-TTS-500M-v3 是一款基于整流流扩散变换器(Rectified Flow Diffusion Transformer,RF-DiT)架构的日语文本转语音模型。其架构和训练设计主要参考了 Echo-TTS(https://jordandarefsky.com/blog/2025/echo/),使用连续潜变量作为生成目标。该模型支持从参考音频进行零样本语音克隆。
该模型的一个独特之处在于基于表情符号的风格和音效控制——通过在输入文本中插入特定表情符号,可以控制生成音频的说话风格、情感甚至音效。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%8C%9F-key-features🌟 主要特性
- **流匹配 TTS:**在连续 DACVAE 潜变量上采用整流流扩散变换器,实现高质量日语语音合成。
- **语音克隆:**通过简短参考音频片段进行零样本语音克隆。
- **基于表情符号的风格控制:**通过在输入文本中嵌入表情符号,直接控制说话风格、情感和音效。查看
EMOJI_ANNOTATIONS.md(https://huggingface.co/Aratako/Irodori-TTS-500M-v3/blob/main/EMOJI_ANNOTATIONS.md)获取支持的表情符号及其效果的完整列表。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%E2%9C%A8-whats-new-in-v3✨ v3 新特性
此版本相较于之前的 v2 模型带来了若干重大改进:
- **可变长度训练与时长预测器:**从固定长度训练转向可变长度训练,并引入了时长预测器。这不仅提升了训练效率,还提高了推理时的实时因子(RTF)。
- **扩充训练数据:**模型在更大规模的数据集上训练,使得语音合成更加自然,并且在不同说话风格下具有更强的鲁棒性。
- **集成水印:**集成了 SilentCipher(https://github.com/sony/silentcipher),可直接为生成的输出添加鲁棒的、不可见的音频水印,促进负责任的 AI 使用。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%8F%97%EF%B8%8F-architecture🏗️ 架构
该模型(约 500M 参数)由四个主要组件构成:
- **文本编码器:**从 llm-jp/llm-jp-3-150m(https://huggingface.co/llm-jp/llm-jp-3-150m)初始化的词嵌入,随后是自注意力 + SwiGLU 变换器层(带有 RoPE)。
- **参考潜变量编码器:**通过自注意力 + SwiGLU 层编码分块的参考音频潜变量,用于说话人/风格条件设置。
- **扩散变换器:**联合注意力 DiT 模块,包含低秩 AdaLN(时间步条件自适应层归一化)、半 RoPE 和 SwiGLU MLP。
- **时长预测器:**根据编码文本和说话人条件,使用堆叠的 SwiGLU MLP 模块预测音频时长。
音频通过 Aratako/Semantic-DACVAE-Japanese-32dim(https://huggingface.co/Aratako/Semantic-DACVAE-Japanese-32dim)编解码器(32 维)表示为连续潜变量序列,实现 48kHz 高质量波形重建。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%8E%A7-audio-samples🎧 音频示例
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#1-standard-tts1. 标准 TTS
基础日语文本转语音生成(不使用参考音频)。
案例文本生成的音频示例 1“お電話ありがとうございます。ただいま電話が大変混み合っております。恐れ入りますが、発信音のあとに、ご用件をお話しください。”示例 2“その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。”
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#2-emoji-annotation-control2. 表情符号注释控制
使用表情符号控制说话风格和效果的示例。支持的表情符号完整列表请见 EMOJI_ANNOTATIONS.md(https://huggingface.co/Aratako/Irodori-TTS-500M-v3/blob/main/EMOJI_ANNOTATIONS.md)。
案例文本(含表情符号)生成的音频示例 1なーに、どうしたの?…え?もっと近づいてほしい?…👂😮💨👂😮💨こういうのが好きなんだ?示例 2うぅ…😭そんなに酷いこと、言わないで…😭示例 3🤧🤧ごめんね、風邪引いちゃってて🤧…大丈夫、ただの風邪だからすぐ治るよ🥺
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#3-voice-cloning-zero-shot3. 语音克隆(零样本)
从参考音频片段克隆语音的示例。
案例参考音频生成的音频示例 1****示例 2
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%9A%80-usage🚀 使用方式
关于推理代码、安装说明和训练脚本,请参阅 GitHub 仓库:
👉GitHub: Aratako/Irodori-TTS(https://github.com/Aratako/Irodori-TTS)
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%93%8A-training-data–annotation📊 训练数据与注释
该模型在扩充的高质量日语语音数据集上训练。为了实现基于表情符号的风格控制,训练文本增加了表情符号注释。这些注释是使用基于 Qwen/Qwen3-Omni-30B-A3B-Instruct(https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct)微调后的模型自动生成并标记的。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%E2%9A%A0%EF%B8%8F-limitations⚠️ 局限性
- **仅支持日语:**该模型目前仅支持日语文本输入。
- **表情符号控制:**虽然基于表情符号的风格控制增加了表现力,但效果可能因上下文而异,并非始终完全一致。
- **音频质量:**质量取决于训练数据特征。对于训练数据中代表性不足的声音或说话风格,性能可能有所下降。
- **汉字读音准确性:**与同尺寸的其他 TTS 模型相比,该模型准确读取汉字的能力相对较弱。您可能需要预先将复杂汉字转换为平假名或片假名。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%93%9C-license–ethical-restrictions📜 许可证与伦理限制
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#license许可证
本模型采用 MIT(https://choosealicense.com/licenses/mit/) 许可证发布。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#ethical-restrictions伦理限制
除许可证条款外,还适用以下伦理限制:
- **禁止冒充:**未经个人(如声优、名人、公众人物)明确同意,不得使用本模型克隆或冒充其声音。
- **禁止传播虚假信息:**不得使用本模型生成旨在误导他人或传播虚假信息的深度伪造或合成语音。
- **语音生成免责声明:**当仅凭文本而不使用参考音频生成语音时,生成的声音有可能与真实人类声音巧合相似。这严格来说是潜空间中的概率性产物。模型训练并非以复制特定个体为目的。
- **责任免责声明:**开发者不承担因滥用本模型产生的任何责任。用户应全权确保使用生成内容符合其所在地的适用法律和法规。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%99%8F-acknowledgments🙏 致谢
本项目基于以下工作:
- Echo-TTS(https://jordandarefsky.com/blog/2025/echo/)—— 架构与训练设计参考
- DACVAE(https://github.com/facebookresearch/dacvae)—— 音频 VAE
- llm-jp/llm-jp-3-150m(https://huggingface.co/llm-jp/llm-jp-3-150m)—— 分词器和嵌入权重初始化
- SilentCipher(https://github.com/sony/silentcipher)—— 音频水印集成
我们还要特别感谢 Respair(https://huggingface.co/Respair) 为表情符号注释功能提供的灵感,以及 gabrielclark3330(https://huggingface.co/gabrielclark3330)对本项目的支持。
https://huggingface.co/Aratako/Irodori-TTS-500M-v3#%F0%9F%96%8A%EF%B8%8F-citation🖊️ 引用
如果您在研究或项目中使用了 Irodori-TTS-v3,请按以下格式引用:
@misc{irodori-tts-v3, author = {Chihiro Arata}, title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control}, year = {2026}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v3}} }
相似文章
Higgs Audio v3 TTS 4B。专为语音聊天打造。支持100种语言和内联控制。
Higgs Audio v3 是一个 4B 参数的 TTS 模型,专为语音聊天应用设计,支持 100 种语言并具备内联控制能力。
dots.tts 2B🎙️ 来自RedNote的SOTA文本转语音模型
RedNote发布了dots.tts,一个2B参数的开源文本转语音模型,支持零样本语音克隆和48kHz合成。
jaaari/kokoro-82m
Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。
jdopensource/JoyAI-Echo
京东开源发布了JoyAI-Echo(Echo-LongVideo),这是一个文本到音视频扩散模型,能够生成分钟级的多镜头视频,保持角色身份和声音一致,并利用DMD蒸馏实现了7.5倍的速度提升。
@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…
X-Voice 是一个基于流匹配的多语言文本转语音系统,支持跨30种语言的零样本语音克隆,并提供开源代码、模型及演示。