OpenMOSS-Team/MOSS-TTS-Nano-100M
摘要
MOSS-TTS-Nano是一个开源的多语言语音生成模型,仅0.1B参数,专为实时TTS设计,可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布,它支持简单的本地部署,用于Web服务和产品集成。
查看缓存全文
缓存时间: 2026/04/20 14:45
OpenMOSS-Team/MOSS-TTS-Nano-100M · Hugging Face
来源:https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano-100M
MOSS-TTS-Nano 是一个来自MOSI.AI (https://mosi.cn/#hero) 和 OpenMOSS 团队 (https://www.open-moss.com/) 的开源多语言微型语音生成模型。仅0.1B 参数,专为实时语音生成设计,可直接在无需 GPU 的 CPU 上运行,并且部署栈足够简单,适用于本地演示、Web 服务和轻量级产品集成。
新闻
- 2026年4月10日:我们发布了 MOSS-TTS-Nano。演示 Space 位于 OpenMOSS-Team/MOSS-TTS-Nano。您也可以在 openmoss.github.io/MOSS-TTS-Nano-Demo/ 查看演示及更多详情。
演示
- 在线演示:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- Hugging Face Space:OpenMOSS-Team/MOSS-TTS-Nano
目录
简介
MOSS-TTS-Nano 概念图
MOSS-TTS-Nano 专注于 TTS 部署中实践中最重要的方面:小体积、低延迟、对实时产品足够好的质量以及简单的本地配置。它采用纯自回归的 Audio Tokenizer + LLM 流水线,并为终端用户和 Web 演示用户提供友好的推理工作流。
主要特性
- 模型尺寸极小:仅 0.1B 参数
- 原生音频格式:48 kHz、2 通道输出
- 多语言支持:支持中文、英文及更多语言
- 纯自回归架构:基于 Audio Tokenizer + LLM
- 流式推理:低实时延迟,快速首音
- CPU 友好:流式生成可在 4 核 CPU 上运行
- 长文本能力:支持长输入,自动分块声音克隆
- 开源部署:直接支持
python infer.py、python app.py以及打包 CLI
支持的语言
目前 MOSS-TTS-Nano 支持 20 种语言:
| 语言 | 代码 | 标志 | 语言 | 代码 | 标志 | 语言 | 代码 | 标志 |
|---|---|---|---|---|---|---|---|---|
| 中文 | zh | 🇨🇳 | 英文 | en | 🇺🇸 | 德文 | de | 🇩🇪 |
| 西班牙文 | es | 🇪🇸 | 法文 | fr | 🇫🇷 | 日文 | ja | 🇯🇵 |
| 意大利文 | it | 🇮🇹 | 匈牙利文 | hu | 🇭🇺 | 韩文 | ko | 🇰🇷 |
| 俄文 | ru | 🇷🇺 | 波斯文(法尔西文) | fa | 🇮🇷 | 阿拉伯文 | ar | 🇸🇦 |
| 波兰文 | pl | 🇵🇱 | 葡萄牙文 | pt | 🇵🇹 | 捷克文 | cs | 🇨🇿 |
| 丹麦文 | da | 🇩🇰 | 瑞典文 | sv | 🇸🇪 | 希腊文 | el | 🇬🇷 |
| 土耳其文 | tr | 🇹🇷 |
快速开始
环境搭建
建议先使用干净的 Python 环境,然后以可编辑模式安装项目,以便 moss-tts-nano 命令在本地可用。下面的示例有意保持参数最少,并依赖仓库的默认值。默认情况下,代码会加载 OpenMOSS-Team/MOSS-TTS-Nano 和 OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano。
使用 Conda
conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano
git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .
如果 requirements.txt 中的 WeTextProcessing 安装失败,请尝试在相同环境中手动安装:
conda install -c conda-forge pynini=2.1.6.post1 -y
pip install git+https://github.com/WhizZest/WeTextProcessing.git
用 infer.py 进行声音克隆
本仓库保留了本地推理的直接 Python 入口点。下面的示例使用声音克隆模式,这是 MOSS-TTS-Nano 的主要推荐工作流。
python infer.py \
--prompt-audio-path assets/audio/zh_1.wav \
--text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
默认情况下,生成的音频会写入 generated_audio/infer_output.wav。
用 app.py 启动本地 Web 演示
您可以启动本地 FastAPI 演示以进行基于浏览器的测试:
python app.py
然后在浏览器中打开 http://127.0.0.1:18083。
CLI 命令:moss-tts-nano generate
执行 pip install -e . 后,您可以直接调用打包的 CLI:
moss-tts-nano generate \
--prompt-speech assets/audio/zh_1.wav \
--text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
注意事项:
moss-tts-nano generate默认写入generated_audio/moss_tts_nano_output.wav。--prompt-speech是声音克隆参考音频路径的友好别名。- 支持使用
--text-file进行长文本合成。
CLI 命令:moss-tts-nano serve
您还可以通过打包的 CLI 启动 Web 演示:
moss-tts-nano serve
该命令转发到 app.py,将模型保持在内存中,并提供本地浏览器演示及 HTTP 生成端点。
MOSS-Audio-Tokenizer-Nano
简介
MOSS-Audio-Tokenizer 是整个 MOSS-TTS 系列的统一离散音频接口。它基于 Cat(Causal Audio Tokenizer with Transformer)架构构建,这是一种完全由因果 Transformer 块组成的无 CNN 音频分词器。它作为 MOSS-TTS、MOSS-TTS-Nano、MOSS-TTSD、MOSS-VoiceGenerator、MOSS-SoundEffect 和 MOSS-TTS-Realtime 的共享音频骨干,为整个产品系列提供一致的音频表示。
为了在降低推理成本的同时进一步提高感知质量,我们训练了 MOSS-Audio-Tokenizer-Nano,这是一个轻量级分词器,大约有 2000 万参数,专为高保真音频压缩设计。它支持 48 kHz 输入输出以及立体声音频,有助于减少压缩损失并提高收听质量。它可以将 48 kHz 立体声音频压缩为 12.5 Hz 的令牌流,并使用 16 个码本的 RVQ,支持从 0.125 kbps 到 4 kbps 的可变比特率高保真重建。
要了解更多关于设置、高级用法和评估指标的信息,请访问 MOSS-Audio-Tokenizer 仓库。
MOSS-Audio-Tokenizer-Nano 架构图
模型权重
许可证
本仓库将遵循根目录 LICENSE 文件中指定的许可证。如果您在文件发布前阅读此处,请将仓库视为尚未获得分发许可。
引用
如果您在研究或产品中使用 MOSS-TTS 工作,请引用:
@misc{openmoss2026mossttsnano,
title={MOSS-TTS-Nano},
author={OpenMOSS Team},
year={2026},
howpublished={GitHub repository},
url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}
@misc{gong2026mossttstechnicalreport,
title={MOSS-TTS Technical Report},
author={Yitian Gong and Botian Jiang and Yiwei Zhao and Yucheng Yuan and Kuangwei Chen and Yaozhou Jiang and Cheng Chang and Dong Hong and Mingshu Chen and Ruixiao Li and Yiyang Zhang and Yang Gao and Hanfu Chen and Ke Chen and Songlin Wang and Xiaogui Yang and Yuqian Zhang and Kexin Huang and ZhengYuan Lin and Kang Yu and Ziqi Chen and Jin Wang and Zhaoye Fei and Qinyuan Cheng and Shimin Li and Xipeng Qiu},
year={2026},
eprint={2603.18090},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2603.18090}
}
@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
year={2026},
eprint={2602.10934},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2602.10934},
}
星标历史
相似文章
OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face
MOSS-TTS v1.5是一个更新的开源文本转语音模型,具有改进的多语言合成(支持31种语言)、更稳定的零样本语音克隆以及显式的内联停顿控制。
@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5!这是一个开源的 48 kHz 立体声 TTS 模式…
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。
@MosiAI_Official: MOSS-TTS Local Transformer v1.5 现已推出。克隆任意声音。说任何语言。听到每一个细节。30多种语言,48 kHz …
MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。
GitHub - pwilkin/openmoss: 基于GGML的OpenMOSS纯C++管道
OpenMOSS 是 MOSS-TTS 的独立 C++/GGML 移植版本,提供了一个自包含的二进制文件,用于文本转语音和语音克隆,基于 Qwen3-8B 骨干网络和 32 个 RVQ 音频码本。它包含用于一次性合成的 CLI 和用于重复生成的 HTTP 服务器。
@Gorden_Sun: ZONOS2:开源MoE TTS模型 8B总参数,0.9B激活参数。支持多语言,支持语音克隆,支持中文,中文效果不错。 模型:
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.