Qwen3 TTS 被严重低估了——我本地实时跑通后，发现它是目前最有表现力的开源 TTS 之一

Reddit r/LocalLLaMA 2026/04/22 18:46 模型

摘要

开发者演示如何本地实时运行 Qwen3 TTS，支持流式输出、量化、词级对齐与自定义音色微调，打造高表现力的开源 TTS 流水线。

大家好，大约一年前，我发布并分享了 Persona Engine 这个 side project：把 ASR→LLM→TTS 整条链路完全本地化，再给一个实时对口型的虚拟形象（类似 VTuber）。当时用 Sesame 做 TTS，效果勉强够用。后来我歇了很长一段时间。一两周前，我想给项目升个级，顺便看看本地模型进步到哪了，结果 Qwen3 TTS 让我大吃一惊。官方放出的初版其实一般，但我折腾了一阵，搞定了： 1. 稳定流式输出。模型解码器是滑动窗口架构，LLM 一边吐字，TTS 一边读，韵律、音高、语调都能保持一致。 2. 用 llama.cpp 跑起来，C# 环境也能用，顺便做了量化，速度飞起。 3. 原版没有词级时间戳和音素，而之前的 Kokoro（虽然声音更机械）是有的。于是我给 Qwen3 加了 CTC 词级对齐，方便做字幕和嘴型驱动。搞定这些后，我又自己微调了一个 Qwen3-TTS 音色。官方给的克隆功能挺酷，但对上下文理解差，发音也翻车；而且官方没放母语级女声，我不想再做新 Live2D 模型。最终微调效果惊艳，我会继续迭代。 GitHub 地址：[https://github.com/fagenorn/handcrafted-persona-engine](https://github.com/fagenorn/handcrafted-persona-engine) 去玩吧，搞出啥骚操作记得告诉我！

查看原文

相似文章

Qwen3-TTS 技术报告

Papers with Code Trending

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型，具备语音克隆和可控生成能力，采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

Qwen3.6 35Ba3 已改变我的工作流程，甚至我使用电脑的方式

Reddit r/LocalLLaMA

一位用户描述了 Qwen3.6 35B 如何结合 'pi' 工具，彻底改变了他们的计算机工作流程，实现了通过自然语言控制操作系统和自动化任务执行。他们完全在本地通过语音消息成功构建了一个落地页，展示了该模型的实用价值。

Qwen3.7预览版登陆Arena（1分钟阅读）

TLDR AI

阿里巴巴Qwen宣布两大重要模型发布：Qwen3-Omni，首个原生端到端全模态AI，统一处理文本、图像、音频和视频；以及Qwen3-Next-80B-A3B，一款超高效MoE模型，每个token激活30亿参数，实现了SOTA性能，推理速度比Qwen3-32B快10倍。

QWEN3.6 + ik_llama 快得离谱

Reddit r/LocalLLaMA

用户报告成功部署 Qwen 3.6 与 ik_llama 量化，在消费级硬件（16GB VRAM、32GB RAM）上实现 200k 上下文窗口下 50+ token/秒。

Voice-to-voice chatbot update

Reddit r/LocalLLaMA

A developer showcases a fully local voice chatbot running Qwen3.5-397B, Whisper-small, and Orpheus TTS with real-time streaming and interruption recovery. The chatbot, named Athena, engages in deep philosophical discussions about consciousness and self-preservation.

相似文章

Qwen3-TTS 技术报告

Qwen3.6 35Ba3 已改变我的工作流程，甚至我使用电脑的方式

Qwen3.7预览版登陆Arena（1分钟阅读）

QWEN3.6 + ik_llama 快得离谱

Voice-to-voice chatbot update

提交意见反馈