@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…
摘要
NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速,且可用于商业用途。
查看缓存全文
缓存时间: 2026/05/31 00:28
NVIDIA 刚刚在 Hugging Face 上发布了一个经过优化的 Kokoro TTS 模型版本
一个轻量级 82M 参数语音合成器,可直接用于商业用途, 通过 ONNX Runtime 在 NVIDIA GPU 上快速运行。
https://t.co/mhxM7fMAWL
nvidia/kokoro-82M-onnx-opt · Hugging Face
来源:https://huggingface.co/nvidia/kokoro-82M-onnx-opt
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#kokoro-overviewKokoro 概述
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#description描述:
Kokoro 是一个拥有 8200 万个参数的开源权重 TTS 模型。尽管其架构轻量,但能提供与更大模型相媲美的质量,同时速度更快、成本效益更高。Kokoro 可部署于从生产环境到个人项目的任何场景。Kokoro 由 hexgrad 开发。此模型可用于商业/非商业用途。
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#third-party-community-consideration第三方社区注意事项
此模型并非 NVIDIA 拥有或开发。此模型是根据第三方对此应用和用例的要求开发和构建的;请参阅非 NVIDIA hexgrad 模型卡 (https://huggingface.co/hexgrad/Kokoro-82M) 的链接。
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#licenseterms-of-use许可/使用条款:
Apache-2.0 (https://www.apache.org/licenses/LICENSE-2.0)
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#deployment-geography部署地域:
全球
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#use-case用例:
适用于构建文本转语音应用、语音助手和音频生成服务的开发者与企业。适合任何需要高质量、低延迟语音合成的领域,包括从生产 API 到个人项目。
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#release-date发布日期:
**HuggingFace:**05/29/2026 通过 [URL]
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#references参考资料:
StyleTTS 2 (https://arxiv.org/abs/2306.07691) ISTFTNet (https://arxiv.org/abs/2203.02395)
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#model-architecture模型架构:
**架构类型:**Transformer **网络架构:**StyleTTS 2,ISTFTNet,仅解码器 此模型基于 yl4579/StyleTTS2-LJSpeech 开发。 **模型参数数量:**82M (8.2*10^7)
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#input输入:
**输入类型:**文本 **输入格式:**字符串 **输入参数:**一维 (1D) 输入相关其他属性:**输入长度:最大约 500 个 token,建议将输入分块为 100-200 个 token 长度输入语言:**英语 – 完全支持,日语、简体中文、西班牙语、法语、印地语、意大利语、巴西葡萄牙语 – 部分支持
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#output输出:
**输出类型:**音频 **输出格式:**音频 (.wav, .mp3) **输出参数:**一维 (1D) **输出相关其他属性:**音频输出时长约为每 1000 字符输入文本一分钟。
我们的 AI 模型设计/优化用于在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),该模型相比仅使用 CPU 的解决方案实现了更快的训练和推理时间。
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#software-integration软件集成:
运行时引擎:
- ONNXRuntime win-x64-gpu_cuda13-1.24.3支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Lovelace
- NVIDIA Turing**[推荐/支持] 操作系统:**Windows 10/11
将基础模型和微调模型集成到 AI 系统需要进行额外的测试(使用特定用例的数据),以确保安全有效的部署。遵循 V-模型方法论,在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能要求,以及确保在部署前符合安全与伦理标准至关重要。
该 AI 模型可以作为应用程序编程接口 (API) 调用嵌入到上述软件环境中。
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#model-versions模型版本:
v1.0
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#training-testing-and-evaluation-datasets训练、测试和评估数据集:
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#training-dataset训练数据集:
**链接:未公开数据模态:**音频 **音频训练数据大小:**少于 10,000 小时 **数据集数据采集方法:**混合:自动化,合成 **数据集标注方法:**自动化 **属性(数量、数据集描述、传感器):**Kokoro 仅使用许可、非版权音频数据和 IPA 音标标签进行训练。数据集包括公共领域录音、在许可协议下发布的音频,以及由闭源 TTS 模型生成的合成音频。总体而言,训练语料库共计几百小时的音频。
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#testing-dataset测试数据集:
**链接:未公开数据集数据采集方法:**未公开 **数据集标注方法:**未公开 **属性(数量、数据集描述、传感器):**未公开
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#evaluation-dataset评估数据集:
**链接:未公开数据集数据采集方法:**未公开 **数据集标注方法:**未公开 **属性(数量、数据集描述、传感器):**未公开
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#inference推理:
加速引擎:
- TensorRT
- CUDA
- CoreML
- Xnnpack
- Nnapi
- DirectML
测试硬件:
- NVIDIA GeForce RTX 4090
- NVIDIA GeForce RTX 3070 Ti
- NVIDIA GeForce RTX 2060
https://huggingface.co/nvidia/kokoro-82M-onnx-opt#ethical-considerations伦理考量:
NVIDIA 认为值得信赖的 AI 是共同责任,我们已制定政策和实践,以便为广泛的 AI 应用开发提供支持。当根据我们的服务条款下载或使用时,开发者应与其内部模型团队合作,以确保该模型满足相关行业和用例的要求,并解决未预见的滥用问题。请在此处 (https://www.nvidia.com/en-us/support/submit-security-vulnerability/) 报告模型质量、风险、安全漏洞或问题。
相似文章
@kwindla: https://x.com/kwindla/status/2062544580105359686
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。
jaaari/kokoro-82m
Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。
@FeitengLi: 99M 参数的 TTS 跑在 CPU 上,比 2B 大模型跑在 A100 上还快。 Supertone 新开源的 supertonic-3 ONNX Runtime,完全本地,浏览器能跑,手机能跑,树莓派也能跑。
Supertone released Supertonic 3, an open-source TTS model with 99M parameters that runs faster on CPU than a 2B model on A100, supporting 31 languages and ONNX Runtime for fully local inference.
@victormustar: https://x.com/victormustar/status/2059264598407033062
这篇文章描述了如何使用Hugging Face的ZeroGPU和一个编码代理,以有限的预算自主部署AI模型,特别是LongCat说话头像模型。
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。