@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…

X AI KOLs Following 模型

摘要

NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速,且可用于商业用途。

NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。 一款轻量级、8200万参数的语音合成器,可用于商业用途, 通过 ONNX Runtime 在 NVIDIA GPU 上快速运行。 https://t.co/mhxM7fMAWL
查看原文
查看缓存全文

缓存时间: 2026/05/31 00:28

NVIDIA 刚刚在 Hugging Face 上发布了一个经过优化的 Kokoro TTS 模型版本

一个轻量级 82M 参数语音合成器,可直接用于商业用途, 通过 ONNX Runtime 在 NVIDIA GPU 上快速运行。

https://t.co/mhxM7fMAWL


nvidia/kokoro-82M-onnx-opt · Hugging Face

来源:https://huggingface.co/nvidia/kokoro-82M-onnx-opt

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#kokoro-overviewKokoro 概述

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#description描述:

Kokoro 是一个拥有 8200 万个参数的开源权重 TTS 模型。尽管其架构轻量,但能提供与更大模型相媲美的质量,同时速度更快、成本效益更高。Kokoro 可部署于从生产环境到个人项目的任何场景。Kokoro 由 hexgrad 开发。此模型可用于商业/非商业用途。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#third-party-community-consideration第三方社区注意事项

此模型并非 NVIDIA 拥有或开发。此模型是根据第三方对此应用和用例的要求开发和构建的;请参阅非 NVIDIA hexgrad 模型卡 (https://huggingface.co/hexgrad/Kokoro-82M) 的链接。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#licenseterms-of-use许可/使用条款:

Apache-2.0 (https://www.apache.org/licenses/LICENSE-2.0)

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#deployment-geography部署地域:

全球

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#use-case用例:

适用于构建文本转语音应用、语音助手和音频生成服务的开发者与企业。适合任何需要高质量、低延迟语音合成的领域,包括从生产 API 到个人项目。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#release-date发布日期:

**HuggingFace:**05/29/2026 通过 [URL]

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#references参考资料:

StyleTTS 2 (https://arxiv.org/abs/2306.07691) ISTFTNet (https://arxiv.org/abs/2203.02395)

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#model-architecture模型架构:

**架构类型:**Transformer **网络架构:**StyleTTS 2,ISTFTNet,仅解码器 此模型基于 yl4579/StyleTTS2-LJSpeech 开发。 **模型参数数量:**82M (8.2*10^7)

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#input输入:

**输入类型:**文本 **输入格式:**字符串 **输入参数:**一维 (1D) 输入相关其他属性:**输入长度:最大约 500 个 token,建议将输入分块为 100-200 个 token 长度输入语言:**英语 – 完全支持,日语、简体中文、西班牙语、法语、印地语、意大利语、巴西葡萄牙语 – 部分支持

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#output输出:

**输出类型:**音频 **输出格式:**音频 (.wav, .mp3) **输出参数:**一维 (1D) **输出相关其他属性:**音频输出时长约为每 1000 字符输入文本一分钟。

我们的 AI 模型设计/优化用于在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),该模型相比仅使用 CPU 的解决方案实现了更快的训练和推理时间。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#software-integration软件集成:

运行时引擎:

  • ONNXRuntime win-x64-gpu_cuda13-1.24.3支持的硬件微架构兼容性:
  • NVIDIA Ampere
  • NVIDIA Blackwell
  • NVIDIA Lovelace
  • NVIDIA Turing**[推荐/支持] 操作系统:**Windows 10/11

将基础模型和微调模型集成到 AI 系统需要进行额外的测试(使用特定用例的数据),以确保安全有效的部署。遵循 V-模型方法论,在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能要求,以及确保在部署前符合安全与伦理标准至关重要。

该 AI 模型可以作为应用程序编程接口 (API) 调用嵌入到上述软件环境中。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#model-versions模型版本:

v1.0

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#training-testing-and-evaluation-datasets训练、测试和评估数据集:

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#training-dataset训练数据集:

**链接:未公开数据模态:**音频 **音频训练数据大小:**少于 10,000 小时 **数据集数据采集方法:**混合:自动化,合成 **数据集标注方法:**自动化 **属性(数量、数据集描述、传感器):**Kokoro 仅使用许可、非版权音频数据和 IPA 音标标签进行训练。数据集包括公共领域录音、在许可协议下发布的音频,以及由闭源 TTS 模型生成的合成音频。总体而言,训练语料库共计几百小时的音频。

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#testing-dataset测试数据集:

**链接:未公开数据集数据采集方法:**未公开 **数据集标注方法:**未公开 **属性(数量、数据集描述、传感器):**未公开

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#evaluation-dataset评估数据集:

**链接:未公开数据集数据采集方法:**未公开 **数据集标注方法:**未公开 **属性(数量、数据集描述、传感器):**未公开

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#inference推理:

加速引擎:

  • TensorRT
  • CUDA
  • CoreML
  • Xnnpack
  • Nnapi
  • DirectML

测试硬件:

  • NVIDIA GeForce RTX 4090
  • NVIDIA GeForce RTX 3070 Ti
  • NVIDIA GeForce RTX 2060

https://huggingface.co/nvidia/kokoro-82M-onnx-opt#ethical-considerations伦理考量:

NVIDIA 认为值得信赖的 AI 是共同责任,我们已制定政策和实践,以便为广泛的 AI 应用开发提供支持。当根据我们的服务条款下载或使用时,开发者应与其内部模型团队合作,以确保该模型满足相关行业和用例的要求,并解决未预见的滥用问题。请在此处 (https://www.nvidia.com/en-us/support/submit-security-vulnerability/) 报告模型质量、风险、安全漏洞或问题。

相似文章

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline

NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。

jaaari/kokoro-82m

Replicate Explore

Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。