@Prince_Canuma: mlx-audio v0.4.3 正式发布!模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型:Higgs Audio v2(声音克隆)…
摘要
mlx-audio v0.4.3 发布,新增 6 个 TTS 模型,包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice,同时带来并发请求与持续批处理等服务器改进,Voxtral Realtime 4-bit 模式速度提升约 3 倍,并精简了 Apple Silicon 上的依赖项。
查看缓存全文
缓存时间: 2026/05/09 09:46
mlx-audio v0.4.3 发布 跨模型、服务器和开发体验的重大更新 → 6 个新 TTS 模型:Higgs Audio v2(声音克隆)、OmniVoice(646+ 种语言)、LongCat-AudioDiT 1B、MOSS-TTS-Nano、Irodori-TTS v2、MeloTTS-English → Mel-Band-RoFormer 用于人声源分离 → 服务器:并发请求 + Qwen3 TTS 连续批处理 + 客户端断连处理 → Voxtral Realtime:4-bit 模式速度提升约 3 倍 → Parakeet TDT 长文本性能优化 + Fish Speech S2 Pro 批处理 → 精简依赖:librosa、soundfile、pyloudnorm、pydub、tiktoken — 已移除 → 新增 MkDocs 文档站点 + WebM 音频支持 衷心感谢全部 14 位贡献者,尤其是 8 位新贡献者,欢迎加入! 特别感谢本次发布的 MVP:@lllucas、@KarnikShreyas 和 @beshkenadze。 立即开始使用: > uv pip install -U mlx-audio https://github.com/Blaizzy/mlx-audio… — # Blaizzy/mlx-audio 来源:https://github.com/Blaizzy/mlx-audio # MLX-Audio PyPI 版本 (https://pypi.org/project/mlx-audio/) Python (https://pypi.org/project/mlx-audio/) 许可证:MIT (https://opensource.org/licenses/MIT) GitHub stars (https://github.com/Blaizzy/mlx-audio) 基于 Apple MLX 框架构建的最佳音频处理库,在 Apple Silicon 上提供快速高效的文本转语音(TTS)、语音转文本(STT)和语音转语音(STS)能力。 ## 目录 - 功能特性 - 安装 - 快速开始 - 支持的模型 - 模型示例 - Web 界面 & API 服务器 - 量化 - Swift - 环境要求 - 许可证 - 引用 - 致谢 ## 功能特性 - 针对 Apple Silicon(M 系列芯片)优化的快速推理 - 支持 TTS、STT 和 STS 的多种模型架构 - 跨模型多语言支持 - 声音自定义与克隆能力 - 可调节的语速控制 - 带 3D 音频可视化的交互式 Web 界面 - 兼容 OpenAI 的 REST API - 量化支持(3-bit、4-bit、6-bit、8-bit 等)以优化性能 - 用于 iOS/macOS 集成的 Swift 包 ## 安装 ### 使用 pip bash pip install mlx-audio ### 使用 uv 仅安装命令行工具 从 PyPI 安装最新版本: bash uv tool install --force mlx-audio --prerelease=allow 从 GitHub 安装最新代码: bash uv tool install --force git+https://github.com/Blaizzy/mlx-audio.git --prerelease=allow ### 用于开发或 Web 界面: bash git clone https://github.com/Blaizzy/mlx-audio.git cd mlx-audio pip install -e ".[dev]" ## 快速开始 ### 命令行 bash # 基本 TTS 生成 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello, world!' --voice Chelsie # 使用不同的声音和语言提示 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Welcome to MLX-Audio!' --voice Ethan --lang_code English # 立即播放音频 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --play # 保存到指定目录 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --output_path ./my_audio # 生成时流式输出音频 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --stream # 流式输出音频并保存到磁盘 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text 'Hello!' --voice Chelsie --stream --save # 将多个生成片段合并为一个文件 mlx_audio.tts.generate --model mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit --text $'Hello!\nHow are you?' --voice Chelsie --join_audio 默认情况下,当生成产生多个片段时,mlx-audio 会保存编号文件,如 audio_000.wav 和 audio_001.wav。使用 --join_audio 可将其合并保存为一个文件。使用 --stream 时,添加 --save 可将流式音频写入磁盘。 ### Python API python from mlx_audio.tts.utils import load_model # 加载模型 model = load_model("mlx-community/Qwen3-TTS-12Hz-1.7B-Base-8bit") # 生成语音 for result in model.generate( "Hello from MLX-Audio!", voice="Chelsie", lang_code="English", ): print(f"Generated {result.audio.shape[0]} samples") # result.audio 以 mx.array 形式包含波形数据 ## 支持的模型 ### 文本转语音(TTS) | 模型 | 描述 | 语言 | 仓库 | |—––|———––|———–|——| | Kokoro | 快速、高质量多语言 TTS | EN、JA、ZH、FR、ES、IT、PT、HI | bf16 (https://huggingface.co/mlx-community/Kokoro-82M-bf16)、8bit (https://huggingface.co/mlx-community/Kokoro-82M-8bit)、6bit (https://huggingface.co/mlx-community/Kokoro-82M-6bit)、4bit (https://huggingface.co/mlx-community/Kokoro-82M-4bit) | | Qwen3-TTS | 阿里巴巴的多语言 TTS,支持声音设计 | ZH、EN、JA、KO 等 | mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 (https://huggingface.co/mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16) | | CSM | 支持声音克隆的对话语音模型 | EN | mlx-community/csm-1b (https://huggingface.co/mlx-community/csm-1b) | | Dia | 专注对话的 TTS | EN | mlx-community/Dia-1.6B-fp16 (https://huggingface.co/mlx-community/Dia-1.6B-fp16) | | OuteTTS | 高效 TTS 模型 | EN | mlx-community/OuteTTS-1.0-0.6B-fp16 (https://huggingface.co/mlx-community/OuteTTS-1.0-0.6B-fp16) | | Spark | SparkTTS 模型 | EN、ZH | mlx-community/Spark-TTS-0.5B-bf16 (https://huggingface.co/mlx-community/Spark-TTS-0.5B-bf16) | | Chatterbox | 表现力丰富的多语言 TTS | EN、ES、FR、DE、IT、PT、PL、TR、RU、NL、CS、AR、ZH、JA、HU、KO | mlx-community/chatterbox-fp16 (https://huggingface.co/mlx-community/chatterbox-fp16) | | Soprano | 高质量 TTS | EN | mlx-community/Soprano-1.1-80M-bf16 (https://huggingface.co/mlx-community/Soprano-1.1-80M-bf16) | | Ming Omni TTS (BailingMM) | 多模态生成,支持声音克隆、风格控制及语音/音乐/事件声音生成 | EN、ZH | mlx-community/Ming-omni-tts-16.8B-A3B-bf16 (https://huggingface.co/mlx-community/Ming-omni-tts-16.8B-A3B-bf16) | | Ming Omni TTS (Dense) | 轻量级稠密 Ming Omni 变体,支持声音克隆和风格控制 | EN、ZH | mlx-community/Ming-omni-tts-0.5B-bf16 (https://huggingface.co/mlx-community/Ming-omni-tts-0.5B-bf16) | | KugelAudio | 面向欧洲语言的 SOTA 7B AR+扩散 TTS | EN、DE、FR、ES、IT、PT、NL、PL、RU、UK 等 14 种语言 | kugelaudio/kugelaudio-0-open (https://huggingface.co/kugelaudio/kugelaudio-0-open) | | Voxtral TTS | Mistral 的 4B 多语言 TTS(20 种声音,9 种语言) | EN、FR、ES、DE、IT、PT、NL、AR、HI | mlx-community/Voxtral-4B-TTS-2603-mlx-bf16 (https://huggingface.co/mlx-community/Voxtral-4B-TTS-2603-mlx-bf16) | | LongCat-AudioDiT | 基于波形潜空间的 SOTA 扩散 TTS,支持声音克隆 | ZH、EN | mlx-community/LongCat-AudioDiT-1B-bf16 (https://huggingface.co/mlx-community/LongCat-AudioDiT-1B-bf16) | | MeloTTS | 基于 VITS2 的轻量级 TTS,支持流式输出 | EN(更多语言即将支持) | mlx-community/MeloTTS-English-MLX (https://huggingface.co/mlx-community/MeloTTS-English-MLX) | | MOSS-TTS | 8B 延迟模式和 1.7B 局部 Transformer 多语言 TTS,支持声音克隆 | 20 种语言 | OpenMOSS-Team/MOSS-TTS (https://huggingface.co/OpenMOSS-Team/MOSS-TTS)、OpenMOSS-Team/MOSS-TTS-Local-Transformer (https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Local-Transformer) | | MOSS-TTS-Nano | 极小型多语言声音克隆 TTS | 20 种语言 | mlx-community/MOSS-TTS-Nano-100M (https://huggingface.co/mlx-community/MOSS-TTS-Nano-100M) | | Higgs Audio v2 | 基于 3B Llama 的 TTS,支持实时声音克隆 | EN、ZH、KO、DE、ES | bf16(上游)(https://huggingface.co/bosonai/higgs-audio-v2-generation-3B-base)、q8 (https://huggingface.co/mlx-community/higgs-audio-v2-3B-mlx-q8)、q6 (https://huggingface.co/mlx-community/higgs-audio-v2-3B-mlx-q6) | ### 语音转文本(STT) | 模型 | 描述 | 语言 | 仓库 | |—––|———––|———–|——| | Whisper | OpenAI 的鲁棒 STT 模型 | 99+ 种语言 | mlx-community/whisper-large-v3-turbo-asr-fp16 (https://huggingface.co/mlx-community/whisper-large-v3-turbo-asr-fp16) | | Distil-Whisper | 蒸馏版快速 Whisper 变体 | EN | distil-whisper/distil-large-v3 (https://huggingface.co/distil-whisper/distil-large-v3) | | Qwen3-ASR | 阿里巴巴的多语言 ASR | ZH、EN、JA、KO 等 | mlx-community/Qwen3-ASR-1.7B-8bit (https://huggingface.co/mlx-community/Qwen3-ASR-1.7B-8bit) | | Qwen3-ForcedAligner | 词级音频对齐 | ZH、EN、JA、KO 等 | mlx-community/Qwen3-ForcedAligner-0.6B-8bit (https://huggingface.co/mlx-community/Qwen3-ForcedAligner-0.6B-8bit) | | Parakeet | NVIDIA 的高精度 STT | EN(v2),25 种欧洲语言(v3) | mlx-community/parakeet-tdt-0.6b-v3 (https://huggingface.co/mlx-community/parakeet-tdt-0.6b-v3) | | Voxtral | Mistral 的语音模型 | 多语言 | mlx-community/Voxtral-Mini-3B-2507-bf16 (https://huggingface.co/mlx-community/Voxtral-Mini-3B-2507-bf16) | | Voxtral Realtime | Mistral 的 4B 流式 STT | 多语言 | 4bit (https://huggingface.co/mlx-community/Voxtral-Mini-4B-Realtime-2602-4bit)、fp16 (https://huggingface.co/mlx-community/Voxtral-Mini-4B-Realtime-2602-fp16) | | VibeVoice-ASR | Microsoft 的 9B ASR,支持说话人分离和时间戳 | 多语言 | mlx-community/VibeVoice-ASR-bf16 (https://huggingface.co/mlx-community/VibeVoice-ASR-bf16) | | Canary | NVIDIA 的多语言 ASR,支持翻译 | 25 种欧洲语言 + RU、UK | README | | Moonshine | Useful Sensors 的轻量级 ASR | EN | README | | MMS | Meta 的大规模多语言 ASR,支持适配器 | 1000+ 种语言 | README | | Granite Speech | IBM 的 ASR + 语音翻译 | EN、FR、DE、ES、PT、JA | README | | Qwen2-Audio | 阿里巴巴的多模态音频理解(ASR、字幕、情感、翻译) | 多语言 | mlx-community/Qwen2-Audio-7B-Instruct-4bit (https://huggingface.co/mlx-community/Qwen2-Audio-7B-Instruct-4bit) | ### 语音活动检测 / 说话人分离(VAD) | 模型 | 描述 | 语言 | 仓库 | |—––|———––|———–|——| | Silero VAD | 轻量级语音/非语音检测,支持流式状态 | 语言无关 | mlx-community/silero-vad (https://huggingface.co/mlx-community/silero-vad) | | Sortformer v1 | NVIDIA 的端到端说话人分离(最多 4 位说话人) | 语言无关 | mlx-community/diar_sortformer_4spk-v1-fp32 (https://huggingface.co/mlx-community/diar_sortformer_4spk-v1-fp32) | | Sortformer v2.1 | NVIDIA 的流式说话人分离,支持 AOSC 压缩 | 语言无关 | mlx-community/diar_streaming_sortformer_4spk-v2.1-fp32 (https://huggingface.co/mlx-community/diar_streaming_sortformer_4spk-v2.1-fp32) | 有关 API 详情、流式示例和转换步骤,请参阅各模型的 README。 ### 语音转语音(STS) | 模型 | 描述 | 使用场景 | 仓库 | |—––|———––|–––––|——| | SAM-Audio | 文本引导的声源分离 | 提取特定声音 | mlx-community/sam-audio-large (https://huggingface.co/mlx-community/sam-audio-large) | | Liquid2.5-Audio* | 语音转语音、文本转语音和语音转文本 | 语音交互 | mlx-community/LFM2.5-Audio-1.5B-8bit (https://huggingface.co/mlx-community/LFM2.5-Audio-1.5B-8bit) | | MossFormer2 SE | 语音增强 | 降噪 | starkdmi/MossFormer2_SE_48K_MLX (https://huggingface.co/starkdmi/MossFormer2_SE_48K_MLX) | | DeepFilterNet (1/2/3) | 语音增强 | 噪声抑制 | mlx-community/DeepFilterNet-mlx (https://huggingface.co/mlx-community/DeepFilterNet-mlx) | ## 模型示例 ### Qwen3-TTS 阿里巴巴的最先进多语言 TTS,具备声音克隆、情感控制和声音设计能力。 python from mlx_audio.tts.utils import load_model model = load_model("mlx-community/Qwen3-TTS-12Hz-0.6B-Base-bf16") results = list(model.generate( text="Hello, welcome to MLX-Audio!", voice="Chelsie", language="English", )) audio = results[0].audio # mx.array 有关声音克隆、CustomVoice、VoiceDesign 及所有可用模型,请参阅 Qwen3-TTS README。 ### Ming Omni TTS (BailingMM) bash mlx_audio.tts.generate \ --model mlx-community/Ming-omni-tts-16.8B-A3B-bf16 \ --prompt "Please generate speech based on the following description.\n" \ --text "This is a quick Ming Omni test." \ --lang_code en \ --output_path audio_io \ --file_prefix ming_basic \ --verbose 有关 CLI 和 Python 示例,请参阅 Ming Omni TTS README;有关 mlx-community/Ming-omni-tts-0.5B-bf16 的工作流程,请参阅 Ming Omni Dense README。 ### Kokoro TTS Kokoro 是一个快速的多语言 TTS 模型,提供 54 种声音预设。 python from mlx_audio.tts.utils import load_model model = load_model("mlx-community/Kokoro-82M-bf16") # 也可使用量化版本以降低内存占用: # model = load_model("mlx-community/Kokoro-82M-8bit") # model = load_model("mlx-community/Kokoro-82M-4bit") # 使用不同声音生成 for result in model.generate( text="Welcome to MLX-Audio!", voice="af_heart", # 美式女声 speed=1.0, lang_code="a" # 美式英语 ): audio = result.audio 可用声音: - 美式英语:af_heart、af_bella、af_nova、af_sky、am_adam、am_echo 等 - 英式英语:bf_alice、bf_emma、bm_daniel、bm_george 等 - 日语:jf_alpha、jm_kumo 等 - 中文:zf_xiaobei、zm_yunxi 等 Kokoro 需要安装 pip install misaki 进行文本处理。日语和普通话可能额外需要 pip install misaki[ja] 或 pip install misaki[zh]。 语言代码: | 代码 | 语言 | 备注 | |——|–––––|——| | a | 美式英语 | 默认;需要 pip install misaki | | b | 英式英语 | 需要 pip install misaki | | j | 日语 | 需要 pip install misaki[ja] | | z | 普通话(中文) | 需要 pip install misaki[zh] | | e | 西班牙语 | 需要 pip install misaki | | f | 法语 | 需要 pip install misaki | ### CSM(声音克隆) 使用参考音频样本克隆任意声音: bash mlx_audio.tts.generate \ --model mlx-community/csm-1b \ --text "Hello from Sesame." \ --ref_audio ./reference_voice.wav \ --play ### Whisper STT python from mlx_audio.stt.generate import generate_transcription result = generate_transcription( model="mlx-community/whisper-large-v3-turbo-asr-fp16", audio="audio.wav", ) print(result.text) ### Qwen3-ASR 和 ForcedAligner 阿里巴巴的多语言语音模型,用于转录和词级对齐。 python from mlx_audio.stt import load # 语音识别 model = load("mlx-community/Qwen3-ASR-0.6B-8bit") result = model.generate("audio.wav", language="English") print(result.text) # 词级强制对齐 aligner = load("mlx-community/Qwen3-ForcedAligner-0.6B-8bit") result = aligner.generate("audio.wav", text="I have a dream", language="English") for item in result: print(f"[{item.start_time:.2f}s - {item.end_time:.2f}s] {item.text}") 有关 CLI 用法、所有模型和更多示例,请参阅 Qwen3-ASR README。 ### VibeVoice-ASR Microsoft 的 9B 参数语音转文本模型,支持说话人分离和时间戳。支持长音频(最长 60 分钟),输出结构化 JSON。 ``python from mlx_audio.stt.utils import load model = load(“mlx-community/VibeVoice-ASR-bf16”) # 基本转录 result = model.generate(audio=“meeting.wav”, max_tokens=8192, temperature=0.0) print(result.text) # [{“Start”:0,“End”:5.2,“Speaker”:0,“Content”:“Hello eve
相似文章
Claude Opus 4.7、Qwen 3.6、Happy Oyster、实时3D世界、全新Google TTS:AI新闻
Anthropic、阿里巴巴、谷歌等巨头集中发布重磅模型——Claude Opus 4.7、Qwen 3.6、情感丰富的Google TTS,还有仅1.58-bit的手机LLM与实时3D世界生成器,同时开放视频、VR及角色创作工具。
Gemma 4 音频与 MLX
在 macOS 上使用 Gemma 4 E2B 模型、MLX 和 mlx-vlm 进行音频转录的实用指南,包含 uv run 方法及工作流程演示。
@paulabartabajo_:给AI工程师的建议 如果你正在构建语音智能体,别再连接3个独立模型了,用于音频转文本、文本转音频,或文本转文本……
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。
OpenMOSS-Team/MOSS-TTS-Nano-100M
MOSS-TTS-Nano是一个开源的多语言语音生成模型,仅0.1B参数,专为实时TTS设计,可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布,它支持简单的本地部署,用于Web服务和产品集成。
在API中引入下一代音频模型
OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。