Qwen3 TTS 被严重低估了——我本地实时跑通后,发现它是目前最有表现力的开源 TTS 之一
摘要
开发者演示如何本地实时运行 Qwen3 TTS,支持流式输出、量化、词级对齐与自定义音色微调,打造高表现力的开源 TTS 流水线。
大家好,
大约一年前,我发布并分享了 Persona Engine 这个 side project:把 ASR→LLM→TTS 整条链路完全本地化,再给一个实时对口型的虚拟形象(类似 VTuber)。当时用 Sesame 做 TTS,效果勉强够用。后来我歇了很长一段时间。
一两周前,我想给项目升个级,顺便看看本地模型进步到哪了,结果 Qwen3 TTS 让我大吃一惊。官方放出的初版其实一般,但我折腾了一阵,搞定了:
1. 稳定流式输出。模型解码器是滑动窗口架构,LLM 一边吐字,TTS 一边读,韵律、音高、语调都能保持一致。
2. 用 llama.cpp 跑起来,C# 环境也能用,顺便做了量化,速度飞起。
3. 原版没有词级时间戳和音素,而之前的 Kokoro(虽然声音更机械)是有的。于是我给 Qwen3 加了 CTC 词级对齐,方便做字幕和嘴型驱动。
搞定这些后,我又自己微调了一个 Qwen3-TTS 音色。官方给的克隆功能挺酷,但对上下文理解差,发音也翻车;而且官方没放母语级女声,我不想再做新 Live2D 模型。最终微调效果惊艳,我会继续迭代。
GitHub 地址:[https://github.com/fagenorn/handcrafted-persona-engine](https://github.com/fagenorn/handcrafted-persona-engine)
去玩吧,搞出啥骚操作记得告诉我!
相似文章
Qwen3-TTS 技术报告
Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。
Qwen3.6 35Ba3 已改变我的工作流程,甚至我使用电脑的方式
一位用户描述了 Qwen3.6 35B 如何结合 'pi' 工具,彻底改变了他们的计算机工作流程,实现了通过自然语言控制操作系统和自动化任务执行。他们完全在本地通过语音消息成功构建了一个落地页,展示了该模型的实用价值。
Qwen3.7预览版登陆Arena(1分钟阅读)
阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。
QWEN3.6 + ik_llama 快得离谱
用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。
Voice-to-voice chatbot update
A developer showcases a fully local voice chatbot running Qwen3.5-397B, Whisper-small, and Orpheus TTS with real-time streaming and interruption recovery. The chatbot, named Athena, engages in deep philosophical discussions about consciousness and self-preservation.