owensong/Inflect-Nano-v1
摘要
Inflect-Nano-v1 是一个极小的英文文本转语音模型,总推理参数(包括其声码器)为 4.63M,专为本地高效的语音合成实验而设计。
查看缓存全文
缓存时间: 2026/06/18 23:42
owensong/Inflect-Nano-v1 · Hugging Face
来源:https://huggingface.co/owensong/Inflect-Nano-v1 Inflect-Nano 横幅
https://huggingface.co/owensong/Inflect-Nano-v1#inflect-nano-v1Inflect-Nano-v1
编辑于 2026年6月17日——我很高兴看到这个模型表现不错!如果有更多人觉得它有用,我可能会考虑用更大的预算训练一个 v2 版本。Inflect-Nano 在 Hugging Face 的 TTS 排行榜上排名第三!它还能再高吗?如果你想看到 v2,只需点赞/收藏这个模型,让更多人看到它。感谢每一位查看这个模型的人!
Inflect-Nano-v1 是一个超小型的英文文本转语音模型,总推理参数量只有 4.63M(包含声码器)。
它并非试图超越大型 TTS 模型。而是一个小巧、本地化、完整的文本到波形管线,旨在测试超轻量语音合成能走多远。
https://huggingface.co/owensong/Inflect-Nano-v1#highlights亮点
- 总参数量 4.63M
- 包含声码器
- 24 kHz 音频
- 单一英文男声
- 使用 PyTorch 本地运行
- 专为小模型实验、本地助手、嵌入式演示和高效推理研究而构建
https://huggingface.co/owensong/Inflect-Nano-v1#listen试听
文本音频「时间改了吗?」她答道。「那罗根为什么离开?」谁会把停车计时器放在急救标志旁边?请清晰地说出 neighborhood、statistics 和 anesthesiologist,不要跳过中间音节。我说的是 91,不是 306,这是两个完全不同的数字。推理路径看起来很自然,但在 Marcus 批准最终测试之前,解码器还需要更平滑的过渡。预约改到了 1:25,发票金额是 674.96 美元,存档标记为 1998。如果 Logan 听起来不安,那么事情发生在长滩附近,停顿必须传达这一点。aluminum 这个词不应该抢夺 entrepreneur 之后更柔和结尾的注意力。
https://huggingface.co/owensong/Inflect-Nano-v1#install安装
git clone https://huggingface.co/owensong/Inflect-Nano-v1 cd Inflect-Nano-v1 pip install -r requirements.txt
https://huggingface.co/owensong/Inflect-Nano-v1#generate-speech生成语音
python inference.py --text "Wait, are you actually being for real now?" --out sample.wav
CPU:
python inference.py --device cpu --text "Please say neighborhood clearly." --out sample_cpu.wav
带简单控制:
python inference.py \ --text "The appointment moved to 1:25." \ --length-scale 1.03 \ --pitch-scale 1.00 \ --energy-scale 1.00 \ --out sample_controlled.wav
本地 Gradio 演示:
python app.py
https://huggingface.co/owensong/Inflect-Nano-v1#model-size模型大小
组件参数量声学模型3.465M声码器生成器1.167M总推理管线4.632M 模型文件为:
weights/inflect_nano_v1_acoustic.pt weights/inflect_nano_v1_vocoder.pt
https://huggingface.co/owensong/Inflect-Nano-v1#repo-layout仓库布局
weights/ 模型权重 examples/ 音频示例 assets/ README 横幅 inflect_nano/ 运行时模型代码 third_party/tiny_tts_frontend/ 第三方文本前端,用于英文 G2P/分词 ID inference.py 简单 CLI 推理 app.py 本地 Gradio 演示
模型本身位于 weights/。第三方前端仅用于使发布的模型能够复现相同的文本归一化和分词路径。
https://huggingface.co/owensong/Inflect-Nano-v1#what-makes-it-different独特之处
许多小型 TTS 项目依赖一个单独的大型声码器。Inflect-Nano-v1 将声码器包含在发布的推理管线中,因此完整的文本到波形路径保持在 5M 参数以下。
管线:
文本 -> 英文文本前端 -> 紧凑型 FastSpeech 风格声学模型 -> 80 维梅尔频谱 -> 小型 Snake HiFi-GAN 风格声码器 -> 24 kHz 波形
https://huggingface.co/owensong/Inflect-Nano-v1#architecture架构
声学模型是一个紧凑的非自回归 FastSpeech 风格网络。它预测时长、音高、能量和亮度,然后解码出 80 维梅尔频谱。
声码器是一个小型 Snake 激活 HiFi-GAN 风格生成器,针对 24 kHz 波形重建进行了训练。
主要设置:
设置值采样率24 kHz梅尔频带80声学隐藏大小168编码器层数5解码器层数6声码器上采样率8, 8, 2, 2
https://huggingface.co/owensong/Inflect-Nano-v1#good-for适用场景
- 小型本地 TTS 实验
- 离线助手原型
- 高效推理研究
- 嵌入式语音演示
- 浏览器/WASM 风格探索
- 作为小于 5M 参数 TTS 工作的基线
https://huggingface.co/owensong/Inflect-Nano-v1#not-good-for不适用场景
- 生产级旁白
- 无障碍关键输出
- 声音克隆
- 多语言语音
- 高保真有声书生成
- 与大型现代 TTS 系统匹敌
https://huggingface.co/owensong/Inflect-Nano-v1#limitations限制
这是一个非常小的实验性模型。它可能会听起来机械、嗡嗡声或不稳定,尤其是在处理困难的未见文本时。长提示和不寻常的措辞可靠性较低。声码器也是一个明显的质量瓶颈。
将其用作小型模型研究/演示版本,而不是生产级 TTS 引擎。
https://huggingface.co/owensong/Inflect-Nano-v1#license许可证
Apache-2.0。
本仓库包含一个小型的第三方英文文本前端,用于分词/G2P 兼容性。其许可证包含在 third_party/tiny_tts_frontend/LICENSE 中。
相似文章
我发布了Inflect-Nano,一个极致微小的463万参数TTS模型。
Inflect-Nano,一个极致微小的463万参数文本转语音模型,已经发布。
OpenMOSS-Team/MOSS-TTS-Nano-100M
MOSS-TTS-Nano是一个开源的多语言语音生成模型,仅0.1B参数,专为实时TTS设计,可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布,它支持简单的本地部署,用于Web服务和产品集成。
k2-fsa/OmniVoice
OmniVoice 是一款大规模多语言零样本文本转语音模型,支持超过 600 种语言,基于扩散语言模型架构构建,具备快速推理和语音克隆能力。
vaibhavs10/incredibly-fast-whisper
一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。
@omarsar0: 又一个超棒的开源发布。Miso One 是一个8B参数文本转语音模型,具备真实情感范围,因此配音…
Miso One 是一个开源的8B参数文本转语音模型,具备真实情感范围和110毫秒延迟,专为配音工作设计。