@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

X AI KOLs Timeline 2026/05/09 07:36 工具

text-to-speech audio-processing apple-silicon mlx open-source voice-cloning multilingual

摘要

mlx-audio v0.4.3 发布，新增 6 个 TTS 模型，包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice，同时带来并发请求与持续批处理等服务器改进，Voxtral Realtime 4-bit 模式速度提升约 3 倍，并精简了 Apple Silicon 上的依赖项。

mlx-audio v0.4.3 正式发布！本次更新覆盖模型、服务器和开发体验，内容丰富 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）、OmniVoice（支持 646+ 种语言）、LongCat-AudioDiT 1B、MOSS-TTS-Nano、Irodori-TTS v2、MeloTTS-English → 新增 Mel-Band-RoFormer 用于人声源分离 → 服务器改进：支持并发请求 + Qwen3 TTS 持续批处理 + 客户端断连处理 → Voxtral Realtime：4-bit 模式速度提升约 3 倍 → Parakeet TDT 长文本性能优化 + Fish Speech S2 Pro 批处理支持 → 精简依赖：移除 librosa、soundfile、pyloudnorm、pydub、tiktoken → 全新 MkDocs 文档站点 + WebM 音频支持衷心感谢全部 14 位贡献者，尤其是 8 位新加入的贡献者，欢迎加入！特别致谢本次发布的 MVP：@lllucas、@KarnikShreyas 和 @beshkenadze。立即上手：> uv pip install -U mlx-audio https://github.com/Blaizzy/mlx-audio…

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/09 09:46

mlx-audio v0.4.3 发布跨模型、服务器和开发体验的重大更新 → 6 个新 TTS 模型：Higgs Audio v2（声音克隆）、OmniVoice（646+ 种语言）、LongCat-AudioDiT 1B、MOSS-TTS-Nano、Irodori-TTS v2、MeloTTS-English → Mel-Band-RoFormer 用于人声源分离 → 服务器：并发请求 + Qwen3 TTS 连续批处理 + 客户端断连处理 → Voxtral Realtime：4-bit 模式速度提升约 3 倍 → Parakeet TDT 长文本性能优化 + Fish Speech S2 Pro 批处理 → 精简依赖：librosa、soundfile、pyloudnorm、pydub、tiktoken — 已移除 → 新增 MkDocs 文档站点 + WebM 音频支持衷心感谢全部 14 位贡献者，尤其是 8 位新贡献者，欢迎加入！特别感谢本次发布的 MVP：@lllucas、@KarnikShreyas 和 @beshkenadze。立即开始使用： > uv pip install -U mlx-audio https://github.com/Blaizzy/mlx-audio… — # Blaizzy/mlx-audio 来源：https://github.com/Blaizzy/mlx-audio # MLX-Audio PyPI 版本 (https://pypi.org/project/mlx-audio/) Python (https://pypi.org/project/mlx-audio/) 许可证：MIT (https://opensource.org/licenses/MIT) GitHub stars (https://github.com/Blaizzy/mlx-audio) 基于 Apple MLX 框架构建的最佳音频处理库，在 Apple Silicon 上提供快速高效的文本转语音（TTS）、语音转文本（STT）和语音转语音（STS）能力。 ## 目录 - 功能特性 - 安装 - 快速开始 - 支持的模型 - 模型示例 - Web 界面 & API 服务器 - 量化 - Swift - 环境要求 - 许可证 - 引用 - 致谢 ## 功能特性 - 针对 Apple Silicon（M 系列芯片）优化的快速推理 - 支持 TTS、STT 和 STS 的多种模型架构 - 跨模型多语言支持 - 声音自定义与克隆能力 - 可调节的语速控制 - 带 3D 音频可视化的交互式 Web 界面 - 兼容 OpenAI 的 REST API - 量化支持（3-bit、4-bit、6-bit、8-bit 等）以优化性能 - 用于 iOS/macOS 集成的 Swift 包 ## 安装 ### 使用 pip bash pip install mlx-audio ### 使用 uv 仅安装命令行工具从 PyPI 安装最新版本： bash uv tool install --force mlx-audio --prerelease=allow 从 GitHub 安装最新代码： bash uv tool install --force git+https://github.com/Blaizzy/mlx-audio.git --prerelease=allow ### 用于开发或 Web 界面： bash git clone https://github.com/Blaizzy/mlx-audio.git cd mlx-audio pip install -e ".[dev]" ## 快速开始 ### 命令行 bash # 基本 TTS 生成 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello, world!' --voice Chelsie # 使用不同的声音和语言提示 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Welcome to MLX-Audio!' --voice Ethan --lang_code English # 立即播放音频 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --play # 保存到指定目录 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --output_path ./my_audio # 生成时流式输出音频 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --stream # 流式输出音频并保存到磁盘 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --stream --save # 将多个生成片段合并为一个文件 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text $'Hello!\nHow are you?' --voice Chelsie --join_audio 默认情况下，当生成产生多个片段时，mlx-audio 会保存编号文件，如 audio_000.wav 和 audio_001.wav。使用 --join_audio 可将其合并保存为一个文件。使用 --stream 时，添加 --save 可将流式音频写入磁盘。 ### Python API python from mlx_audio.tts.utils import load_model # 加载模型 model = load_model("mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit") # 生成语音 for result in model.generate( "Hello from MLX-Audio!", voice="Chelsie", lang_code="English", ): print(f"Generated {result.audio.shape[0]} samples") # result.audio 以 mx.array 形式包含波形数据 ## 支持的模型 ### 文本转语音（TTS） | 模型 | 描述 | 语言 | 仓库 | |—––|———––|———–|——| | Kokoro | 快速、高质量多语言 TTS | EN、JA、ZH、FR、ES、IT、PT、HI | bf16 (https://huggingface.co/mlx-community/Kokoro-82M-bf16)、8bit (https://huggingface.co/mlx-community/Kokoro-82M-8bit)、6bit (https://huggingface.co/mlx-community/Kokoro-82M-6bit)、4bit (https://huggingface.co/mlx-community/Kokoro-82M-4bit) | | Qwen3-TTS | 阿里巴巴的多语言 TTS，支持声音设计 | ZH、EN、JA、KO 等 | mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 (https://huggingface.co/mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16) | | CSM | 支持声音克隆的对话语音模型 | EN | mlx-community/csm-1b (https://huggingface.co/mlx-community/csm-1b) | | Dia | 专注对话的 TTS | EN | mlx-community/Dia-1.6B-fp16 (https://huggingface.co/mlx-community/Dia-1.6B-fp16) | | OuteTTS | 高效 TTS 模型 | EN | mlx-community/OuteTTS-1.0-0.6B-fp16 (https://huggingface.co/mlx-community/OuteTTS-1.0-0.6B-fp16) | | Spark | SparkTTS 模型 | EN、ZH | mlx-community/Spark-TTS-0.5B-bf16 (https://huggingface.co/mlx-community/Spark-TTS-0.5B-bf16) | | Chatterbox | 表现力丰富的多语言 TTS | EN、ES、FR、DE、IT、PT、PL、TR、RU、NL、CS、AR、ZH、JA、HU、KO | mlx-community/chatterbox-fp16 (https://huggingface.co/mlx-community/chatterbox-fp16) | | Soprano | 高质量 TTS | EN | mlx-community/Soprano-1.1-80M-bf16 (https://huggingface.co/mlx-community/Soprano-1.1-80M-bf16) | | Ming Omni TTS (BailingMM) | 多模态生成，支持声音克隆、风格控制及语音/音乐/事件声音生成 | EN、ZH | mlx-community/Ming-omni-tts-16.8B-A3B-bf16 (https://huggingface.co/mlx-community/Ming-omni-tts-16.8B-A3B-bf16) | | Ming Omni TTS (Dense) | 轻量级稠密 Ming Omni 变体，支持声音克隆和风格控制 | EN、ZH | mlx-community/Ming-omni-tts-0.5B-bf16 (https://huggingface.co/mlx-community/Ming-omni-tts-0.5B-bf16) | | KugelAudio | 面向欧洲语言的 SOTA 7B AR+扩散 TTS | EN、DE、FR、ES、IT、PT、NL、PL、RU、UK 等 14 种语言 | kugelaudio/kugelaudio-0-open (https://huggingface.co/kugelaudio/kugelaudio-0-open) | | Voxtral TTS | Mistral 的 4B 多语言 TTS（20 种声音，9 种语言） | EN、FR、ES、DE、IT、PT、NL、AR、HI | mlx-community/Voxtral-4B-TTS-2603-mlx-bf16 (https://huggingface.co/mlx-community/Voxtral-4B-TTS-2603-mlx-bf16) | | LongCat-AudioDiT | 基于波形潜空间的 SOTA 扩散 TTS，支持声音克隆 | ZH、EN | mlx-community/LongCat-AudioDiT-1B-bf16 (https://huggingface.co/mlx-community/LongCat-AudioDiT-1B-bf16) | | MeloTTS | 基于 VITS2 的轻量级 TTS，支持流式输出 | EN（更多语言即将支持） | mlx-community/MeloTTS-English-MLX (https://huggingface.co/mlx-community/MeloTTS-English-MLX) | | MOSS-TTS | 8B 延迟模式和 1.7B 局部 Transformer 多语言 TTS，支持声音克隆 | 20 种语言 | OpenMOSS-Team/MOSS-TTS (https://huggingface.co/OpenMOSS-Team/MOSS-TTS)、OpenMOSS-Team/MOSS-TTS-Local-Transformer (https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Local-Transformer) | | MOSS-TTS-Nano | 极小型多语言声音克隆 TTS | 20 种语言 | mlx-community/MOSS-TTS-Nano-100M (https://huggingface.co/mlx-community/MOSS-TTS-Nano-100M) | | Higgs Audio v2 | 基于 3B Llama 的 TTS，支持实时声音克隆 | EN、ZH、KO、DE、ES | bf16（上游）(https://huggingface.co/bosonai/higgs-audio-v2-generation-3B-base)、q8 (https://huggingface.co/mlx-community/higgs-audio-v2-3B-mlx-q8)、q6 (https://huggingface.co/mlx-community/higgs-audio-v2-3B-mlx-q6) | ### 语音转文本（STT） | 模型 | 描述 | 语言 | 仓库 | |—––|———––|———–|——| | Whisper | OpenAI 的鲁棒 STT 模型 | 99+ 种语言 | mlx-community/whisper-large-v3-turbo-asr-fp16 (https://huggingface.co/mlx-community/whisper-large-v3-turbo-asr-fp16) | | Distil-Whisper | 蒸馏版快速 Whisper 变体 | EN | distil-whisper/distil-large-v3 (https://huggingface.co/distil-whisper/distil-large-v3) | | Qwen3-ASR | 阿里巴巴的多语言 ASR | ZH、EN、JA、KO 等 | mlx-community/Qwen3-ASR-1.7B-8bit (https://huggingface.co/mlx-community/Qwen3-ASR-1.7B-8bit) | | Qwen3-ForcedAligner | 词级音频对齐 | ZH、EN、JA、KO 等 | mlx-community/Qwen3-ForcedAligner-0.6B-8bit (https://huggingface.co/mlx-community/Qwen3-ForcedAligner-0.6B-8bit) | | Parakeet | NVIDIA 的高精度 STT | EN（v2），25 种欧洲语言（v3） | mlx-community/parakeet-tdt-0.6b-v3 (https://huggingface.co/mlx-community/parakeet-tdt-0.6b-v3) | | Voxtral | Mistral 的语音模型 | 多语言 | mlx-community/Voxtral-Mini-3B-2507-bf16 (https://huggingface.co/mlx-community/Voxtral-Mini-3B-2507-bf16) | | Voxtral Realtime | Mistral 的 4B 流式 STT | 多语言 | 4bit (https://huggingface.co/mlx-community/Voxtral-Mini-4B-Realtime-2602-4bit)、fp16 (https://huggingface.co/mlx-community/Voxtral-Mini-4B-Realtime-2602-fp16) | | VibeVoice-ASR | Microsoft 的 9B ASR，支持说话人分离和时间戳 | 多语言 | mlx-community/VibeVoice-ASR-bf16 (https://huggingface.co/mlx-community/VibeVoice-ASR-bf16) | | Canary | NVIDIA 的多语言 ASR，支持翻译 | 25 种欧洲语言 + RU、UK | README | | Moonshine | Useful Sensors 的轻量级 ASR | EN | README | | MMS | Meta 的大规模多语言 ASR，支持适配器 | 1000+ 种语言 | README | | Granite Speech | IBM 的 ASR + 语音翻译 | EN、FR、DE、ES、PT、JA | README | | Qwen2-Audio | 阿里巴巴的多模态音频理解（ASR、字幕、情感、翻译） | 多语言 | mlx-community/Qwen2-Audio-7B-Instruct-4bit (https://huggingface.co/mlx-community/Qwen2-Audio-7B-Instruct-4bit) | ### 语音活动检测 / 说话人分离（VAD） | 模型 | 描述 | 语言 | 仓库 | |—––|———––|———–|——| | Silero VAD | 轻量级语音/非语音检测，支持流式状态 | 语言无关 | mlx-community/silero-vad (https://huggingface.co/mlx-community/silero-vad) | | Sortformer v1 | NVIDIA 的端到端说话人分离（最多 4 位说话人） | 语言无关 | mlx-community/diar_sortformer_4spk-v1-fp32 (https://huggingface.co/mlx-community/diar_sortformer_4spk-v1-fp32) | | Sortformer v2.1 | NVIDIA 的流式说话人分离，支持 AOSC 压缩 | 语言无关 | mlx-community/diar_streaming_sortformer_4spk-v2.1-fp32 (https://huggingface.co/mlx-community/diar_streaming_sortformer_4spk-v2.1-fp32) | 有关 API 详情、流式示例和转换步骤，请参阅各模型的 README。 ### 语音转语音（STS） | 模型 | 描述 | 使用场景 | 仓库 | |—––|———––|–––––|——| | SAM-Audio | 文本引导的声源分离 | 提取特定声音 | mlx-community/sam-audio-large (https://huggingface.co/mlx-community/sam-audio-large) | | Liquid2.5-Audio* | 语音转语音、文本转语音和语音转文本 | 语音交互 | mlx-community/LFM2.5-Audio-1.5B-8bit (https://huggingface.co/mlx-community/LFM2.5-Audio-1.5B-8bit) | | MossFormer2 SE | 语音增强 | 降噪 | starkdmi/MossFormer2_SE_48K_MLX (https://huggingface.co/starkdmi/MossFormer2_SE_48K_MLX) | | DeepFilterNet (1/2/3) | 语音增强 | 噪声抑制 | mlx-community/DeepFilterNet-mlx (https://huggingface.co/mlx-community/DeepFilterNet-mlx) | ## 模型示例 ### Qwen3-TTS 阿里巴巴的最先进多语言 TTS，具备声音克隆、情感控制和声音设计能力。 python from mlx_audio.tts.utils import load_model model = load_model("mlx-community/Qwen3-TTS-12Hz-0.6B-Base-bf16") results = list(model.generate( text="Hello, welcome to MLX-Audio!", voice="Chelsie", language="English", )) audio = results[0].audio # mx.array 有关声音克隆、CustomVoice、VoiceDesign 及所有可用模型，请参阅 Qwen3-TTS README。 ### Ming Omni TTS (BailingMM) bash mlx_audio.tts.generate \ --model mlx-community/Ming-omni-tts-16.8B-A3B-bf16 \ --prompt "Please generate speech based on the following description.\n" \ --text "This is a quick Ming Omni test." \ --lang_code en \ --output_path audio_io \ --file_prefix ming_basic \ --verbose 有关 CLI 和 Python 示例，请参阅 Ming Omni TTS README；有关 mlx-community/Ming-omni-tts-0.5B-bf16 的工作流程，请参阅 Ming Omni Dense README。 ### Kokoro TTS Kokoro 是一个快速的多语言 TTS 模型，提供 54 种声音预设。 python from mlx_audio.tts.utils import load_model model = load_model("mlx-community/Kokoro-82M-bf16") # 也可使用量化版本以降低内存占用： # model = load_model("mlx-community/Kokoro-82M-8bit") # model = load_model("mlx-community/Kokoro-82M-4bit") # 使用不同声音生成 for result in model.generate( text="Welcome to MLX-Audio!", voice="af_heart", # 美式女声 speed=1.0, lang_code="a" # 美式英语 ): audio = result.audio 可用声音： - 美式英语：af_heart、af_bella、af_nova、af_sky、am_adam、am_echo 等 - 英式英语：bf_alice、bf_emma、bm_daniel、bm_george 等 - 日语：jf_alpha、jm_kumo 等 - 中文：zf_xiaobei、zm_yunxi 等 Kokoro 需要安装 pip install misaki 进行文本处理。日语和普通话可能额外需要 pip install misaki[ja] 或 pip install misaki[zh]。 语言代码： | 代码 | 语言 | 备注 | |——|–––––|——| | a | 美式英语 | 默认；需要 pip install misaki | | b | 英式英语 | 需要 pip install misaki | | j | 日语 | 需要 pip install misaki[ja] | | z | 普通话（中文） | 需要 pip install misaki[zh] | | e | 西班牙语 | 需要 pip install misaki | | f | 法语 | 需要 pip install misaki | ### CSM（声音克隆）使用参考音频样本克隆任意声音： bash mlx_audio.tts.generate \ --model mlx-community/csm-1b \ --text "Hello from Sesame." \ --ref_audio ./reference_voice.wav \ --play ### Whisper STT python from mlx_audio.stt.generate import generate_transcription result = generate_transcription( model="mlx-community/whisper-large-v3-turbo-asr-fp16", audio="audio.wav", ) print(result.text) ### Qwen3-ASR 和 ForcedAligner 阿里巴巴的多语言语音模型，用于转录和词级对齐。 python from mlx_audio.stt import load # 语音识别 model = load("mlx-community/Qwen3-ASR-0.6B-8bit") result = model.generate("audio.wav", language="English") print(result.text) # 词级强制对齐 aligner = load("mlx-community/Qwen3-ForcedAligner-0.6B-8bit") result = aligner.generate("audio.wav", text="I have a dream", language="English") for item in result: print(f"[{item.start_time:.2f}s - {item.end_time:.2f}s] {item.text}") 有关 CLI 用法、所有模型和更多示例，请参阅 Qwen3-ASR README。 ### VibeVoice-ASR Microsoft 的 9B 参数语音转文本模型，支持说话人分离和时间戳。支持长音频（最长 60 分钟），输出结构化 JSON。 ``python from mlx_audio.stt.utils import load model = load(“mlx-community/VibeVoice-ASR-bf16”) # 基本转录 result = model.generate(audio=“meeting.wav”, max_tokens=8192, temperature=0.0) print(result.text) # [{“Start”:0,“End”:5.2,“Speaker”:0,“Content”:“Hello eve

@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

相似文章

Claude Opus 4.7、Qwen 3.6、Happy Oyster、实时3D世界、全新Google TTS：AI新闻

Gemma 4 音频与 MLX

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

OpenMOSS-Team/MOSS-TTS-Nano-100M

在API中引入下一代音频模型

提交意见反馈