@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…

X AI KOLs Following 2026/05/29 13:37 模型

nvidia kokoro tts text-to-speech onnx optimized lightweight

摘要

NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速，且可用于商业用途。

NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器，可用于商业用途，通过 ONNX Runtime 在 NVIDIA GPU 上快速运行。 https://t.co/mhxM7fMAWL

查看原文

查看缓存全文

缓存时间: 2026/05/31 00:28

NVIDIA 刚刚在 Hugging Face 上发布了一个经过优化的 Kokoro TTS 模型版本

一个轻量级 82M 参数语音合成器，可直接用于商业用途，通过 ONNX Runtime 在 NVIDIA GPU 上快速运行。

https://t.co/mhxM7fMAWL

nvidia/kokoro-82M-onnx-opt · Hugging Face

来源：https://huggingface.co/nvidia/kokoro-82M-onnx-opt

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#kokoro-overviewKokoro 概述

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#description描述：

Kokoro 是一个拥有 8200 万个参数的开源权重 TTS 模型。尽管其架构轻量，但能提供与更大模型相媲美的质量，同时速度更快、成本效益更高。Kokoro 可部署于从生产环境到个人项目的任何场景。Kokoro 由 hexgrad 开发。此模型可用于商业/非商业用途。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#third-party-community-consideration第三方社区注意事项

此模型并非 NVIDIA 拥有或开发。此模型是根据第三方对此应用和用例的要求开发和构建的；请参阅非 NVIDIA hexgrad 模型卡 (https://huggingface.co/hexgrad/Kokoro-82M) 的链接。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#licenseterms-of-use许可/使用条款：

Apache-2.0 (https://www.apache.org/licenses/LICENSE-2.0)

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#deployment-geography部署地域：

全球

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#use-case用例：

适用于构建文本转语音应用、语音助手和音频生成服务的开发者与企业。适合任何需要高质量、低延迟语音合成的领域，包括从生产 API 到个人项目。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#release-date发布日期：

**HuggingFace：**05/29/2026 通过 [URL]

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#references参考资料：

StyleTTS 2 (https://arxiv.org/abs/2306.07691) ISTFTNet (https://arxiv.org/abs/2203.02395)

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#model-architecture模型架构：

**架构类型：**Transformer **网络架构：**StyleTTS 2，ISTFTNet，仅解码器 此模型基于 yl4579/StyleTTS2-LJSpeech 开发。 **模型参数数量：**82M (8.2*10^7)

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#input输入：

**输入类型：**文本 **输入格式：**字符串 **输入参数：**一维 (1D) 输入相关其他属性：**输入长度：最大约 500 个 token，建议将输入分块为 100-200 个 token 长度输入语言：**英语 – 完全支持，日语、简体中文、西班牙语、法语、印地语、意大利语、巴西葡萄牙语 – 部分支持

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#output输出：

**输出类型：**音频 **输出格式：**音频 (.wav, .mp3) **输出参数：**一维 (1D) **输出相关其他属性：**音频输出时长约为每 1000 字符输入文本一分钟。

我们的 AI 模型设计/优化用于在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（例如 GPU 核心）和软件框架（例如 CUDA 库），该模型相比仅使用 CPU 的解决方案实现了更快的训练和推理时间。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#software-integration软件集成：

运行时引擎：

ONNXRuntime win-x64-gpu_cuda13-1.24.3支持的硬件微架构兼容性：
NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Lovelace
NVIDIA Turing**[推荐/支持] 操作系统：**Windows 10/11

将基础模型和微调模型集成到 AI 系统需要进行额外的测试（使用特定用例的数据），以确保安全有效的部署。遵循 V-模型方法论，在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能要求，以及确保在部署前符合安全与伦理标准至关重要。

该 AI 模型可以作为应用程序编程接口 (API) 调用嵌入到上述软件环境中。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#model-versions模型版本：

v1.0

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#training-testing-and-evaluation-datasets训练、测试和评估数据集：

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#training-dataset训练数据集：

**链接：未公开数据模态：**音频 **音频训练数据大小：**少于 10,000 小时 **数据集数据采集方法：**混合：自动化，合成 **数据集标注方法：**自动化 **属性（数量、数据集描述、传感器）：**Kokoro 仅使用许可、非版权音频数据和 IPA 音标标签进行训练。数据集包括公共领域录音、在许可协议下发布的音频，以及由闭源 TTS 模型生成的合成音频。总体而言，训练语料库共计几百小时的音频。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#testing-dataset测试数据集：

**链接：未公开数据集数据采集方法：**未公开 **数据集标注方法：**未公开 **属性（数量、数据集描述、传感器）：**未公开

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#evaluation-dataset评估数据集：

**链接：未公开数据集数据采集方法：**未公开 **数据集标注方法：**未公开 **属性（数量、数据集描述、传感器）：**未公开

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#inference推理：

加速引擎：

TensorRT
CUDA
CoreML
Xnnpack
Nnapi
DirectML

测试硬件：

NVIDIA GeForce RTX 4090
NVIDIA GeForce RTX 3070 Ti
NVIDIA GeForce RTX 2060

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#ethical-considerations伦理考量：

NVIDIA 认为值得信赖的 AI 是共同责任，我们已制定政策和实践，以便为广泛的 AI 应用开发提供支持。当根据我们的服务条款下载或使用时，开发者应与其内部模型团队合作，以确保该模型满足相关行业和用例的要求，并解决未预见的滥用问题。请在此处 (https://www.nvidia.com/en-us/support/submit-security-vulnerability/) 报告模型质量、风险、安全漏洞或问题。