owensong/Inflect-Nano-v1

Hugging Face Models Trending 2026/06/16 19:31 模型

text-to-speech english tiny-model open-source huggingface pytorch local-tts

摘要

Inflect-Nano-v1 是一个极小的英文文本转语音模型，总推理参数（包括其声码器）为 4.63M，专为本地高效的语音合成实验而设计。

任务：文本转语音标签：pytorch, text-to-speech, tts, speech-synthesis, ultra-small, local-tts, efficient-inference, experimental, en, license:apache-2.0, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/18 23:42

owensong/Inflect-Nano-v1 · Hugging Face

来源：https://huggingface.co/owensong/Inflect-Nano-v1 Inflect-Nano 横幅

https://huggingface.co/owensong/Inflect-Nano-v1#inflect-nano-v1Inflect-Nano-v1

编辑于 2026年6月17日——我很高兴看到这个模型表现不错！如果有更多人觉得它有用，我可能会考虑用更大的预算训练一个 v2 版本。Inflect-Nano 在 Hugging Face 的 TTS 排行榜上排名第三！它还能再高吗？如果你想看到 v2，只需点赞/收藏这个模型，让更多人看到它。感谢每一位查看这个模型的人！

Inflect-Nano-v1 是一个超小型的英文文本转语音模型，总推理参数量只有 4.63M（包含声码器）。

它并非试图超越大型 TTS 模型。而是一个小巧、本地化、完整的文本到波形管线，旨在测试超轻量语音合成能走多远。

https://huggingface.co/owensong/Inflect-Nano-v1#highlights亮点

总参数量 4.63M
包含声码器
24 kHz 音频
单一英文男声
使用 PyTorch 本地运行
专为小模型实验、本地助手、嵌入式演示和高效推理研究而构建

https://huggingface.co/owensong/Inflect-Nano-v1#listen试听

文本音频「时间改了吗？」她答道。「那罗根为什么离开？」谁会把停车计时器放在急救标志旁边？请清晰地说出 neighborhood、statistics 和 anesthesiologist，不要跳过中间音节。我说的是 91，不是 306，这是两个完全不同的数字。推理路径看起来很自然，但在 Marcus 批准最终测试之前，解码器还需要更平滑的过渡。预约改到了 1:25，发票金额是 674.96 美元，存档标记为 1998。如果 Logan 听起来不安，那么事情发生在长滩附近，停顿必须传达这一点。aluminum 这个词不应该抢夺 entrepreneur 之后更柔和结尾的注意力。

https://huggingface.co/owensong/Inflect-Nano-v1#install安装

git clone https://huggingface.co/owensong/Inflect-Nano-v1 cd Inflect-Nano-v1 pip install -r requirements.txt

https://huggingface.co/owensong/Inflect-Nano-v1#generate-speech生成语音

python inference.py --text "Wait, are you actually being for real now?" --out sample.wav

CPU：

python inference.py --device cpu --text "Please say neighborhood clearly." --out sample_cpu.wav

带简单控制：

python inference.py \ --text "The appointment moved to 1:25." \ --length-scale 1.03 \ --pitch-scale 1.00 \ --energy-scale 1.00 \ --out sample_controlled.wav

本地 Gradio 演示：

python app.py

https://huggingface.co/owensong/Inflect-Nano-v1#model-size模型大小

组件参数量声学模型3.465M声码器生成器1.167M总推理管线4.632M 模型文件为：

weights/inflect_nano_v1_acoustic.pt weights/inflect_nano_v1_vocoder.pt

https://huggingface.co/owensong/Inflect-Nano-v1#repo-layout仓库布局

weights/ 模型权重 examples/ 音频示例 assets/ README 横幅 inflect_nano/ 运行时模型代码 third_party/tiny_tts_frontend/ 第三方文本前端，用于英文 G2P/分词 ID inference.py 简单 CLI 推理 app.py 本地 Gradio 演示

模型本身位于 weights/。第三方前端仅用于使发布的模型能够复现相同的文本归一化和分词路径。

https://huggingface.co/owensong/Inflect-Nano-v1#what-makes-it-different独特之处

许多小型 TTS 项目依赖一个单独的大型声码器。Inflect-Nano-v1 将声码器包含在发布的推理管线中，因此完整的文本到波形路径保持在 5M 参数以下。

管线：

文本 -> 英文文本前端 -> 紧凑型 FastSpeech 风格声学模型 -> 80 维梅尔频谱 -> 小型 Snake HiFi-GAN 风格声码器 -> 24 kHz 波形

https://huggingface.co/owensong/Inflect-Nano-v1#architecture架构

声学模型是一个紧凑的非自回归 FastSpeech 风格网络。它预测时长、音高、能量和亮度，然后解码出 80 维梅尔频谱。

声码器是一个小型 Snake 激活 HiFi-GAN 风格生成器，针对 24 kHz 波形重建进行了训练。

主要设置：

设置值采样率24 kHz梅尔频带80声学隐藏大小168编码器层数5解码器层数6声码器上采样率8, 8, 2, 2

https://huggingface.co/owensong/Inflect-Nano-v1#good-for适用场景

小型本地 TTS 实验
离线助手原型
高效推理研究
嵌入式语音演示
浏览器/WASM 风格探索
作为小于 5M 参数 TTS 工作的基线

https://huggingface.co/owensong/Inflect-Nano-v1#not-good-for不适用场景

生产级旁白
无障碍关键输出
声音克隆
多语言语音
高保真有声书生成
与大型现代 TTS 系统匹敌

https://huggingface.co/owensong/Inflect-Nano-v1#limitations限制

这是一个非常小的实验性模型。它可能会听起来机械、嗡嗡声或不稳定，尤其是在处理困难的未见文本时。长提示和不寻常的措辞可靠性较低。声码器也是一个明显的质量瓶颈。

将其用作小型模型研究/演示版本，而不是生产级 TTS 引擎。

https://huggingface.co/owensong/Inflect-Nano-v1#license许可证

Apache-2.0。

本仓库包含一个小型的第三方英文文本前端，用于分词/G2P 兼容性。其许可证包含在 third_party/tiny_tts_frontend/LICENSE 中。

owensong/Inflect-Nano-v1

owensong/Inflect-Nano-v1 · Hugging Face

https://huggingface.co/owensong/Inflect-Nano-v1#inflect-nano-v1Inflect-Nano-v1

https://huggingface.co/owensong/Inflect-Nano-v1#highlights亮点

https://huggingface.co/owensong/Inflect-Nano-v1#listen试听

https://huggingface.co/owensong/Inflect-Nano-v1#install安装

https://huggingface.co/owensong/Inflect-Nano-v1#generate-speech生成语音

https://huggingface.co/owensong/Inflect-Nano-v1#model-size模型大小

https://huggingface.co/owensong/Inflect-Nano-v1#repo-layout仓库布局

https://huggingface.co/owensong/Inflect-Nano-v1#what-makes-it-different独特之处

https://huggingface.co/owensong/Inflect-Nano-v1#architecture架构

https://huggingface.co/owensong/Inflect-Nano-v1#good-for适用场景

https://huggingface.co/owensong/Inflect-Nano-v1#not-good-for不适用场景

https://huggingface.co/owensong/Inflect-Nano-v1#limitations限制

https://huggingface.co/owensong/Inflect-Nano-v1#license许可证

相似文章

我发布了Inflect-Nano，一个极致微小的463万参数TTS模型。

OpenMOSS-Team/MOSS-TTS-Nano-100M

k2-fsa/OmniVoice

vaibhavs10/incredibly-fast-whisper

@omarsar0: 又一个超棒的开源发布。Miso One 是一个8B参数文本转语音模型，具备真实情感范围，因此配音…

提交意见反馈