我搭建了一个完全离线的语音循环,对接Ollama和LM Studio——100% CPU,无需GPU,数据绝不离开你的电脑(Silero VAD + Parakeet STT + Supertonic TTS 3)
摘要
一个完全离线、仅使用CPU的语音循环,用于本地大模型,采用Silero VAD、Parakeet STT和Supertonic TTS,通过一条命令整合安装。兼容Ollama、LM Studio以及多种代理框架。
我一直想*用语音*与本地模型交互,而不是打字,但每个语音方案要么需要GPU,要么把音频传到云端,要么只支持macOS。于是我做了个三者都不沾的方案——还对它进行了基准测试,所以这些都是实测数据,而非主观感觉。**一条命令安装整个栈并接入你的代理。然后你只管说话。**所有组件都在CPU上运行,不占用GPU(你的GPU正忙着跑实际的大模型): - **Silero VAD** —— 监听说话起止,无需按键通话。约0.09毫秒/帧。 - **Parakeet TDT 0.6B v3** —— 本地ONNX INT8语音转文字,支持25种语言,在:5093提供OpenAI兼容接口。一段2.5秒的录音转录耗时约280毫秒(约9倍实时)。 - **Supertonic TTS 3** —— 本地ONNX FP16语音合成,多语言,支持F1–F5 / M1–M5声线。一段简短回复渲染约1.7秒(1.6–2.8倍实时),且TTS→STT往返后文字逐字匹配。**实测平台:普通i7-12700KF,仅CPU,未动用GPU**——我的两张3090都满载运行vLLM中的大模型,这正是关键点:语音跑在CPU上,显存留给模型。**与你使用的任何代理兼容——一次安装即可向所有代理注入`talk`技能:** Claude Code、Hermes Agent、OpenClaw、OpenCode和Codex。同一安装程序还会自动安装并启动STT + TTS后端。**数据流——绝不离开本地:** 你 -> Silero VAD(CPU)-> Parakeet STT(CPU)-> 你的大模型(Ollama / LM Studio / vLLM)-> Supertonic 3(CPU)-> 扬声器 **安装(macOS / Linux):** git clone https://github.com/groxaxo/opencode-voice-service cd opencode-voice-service && ./setup.sh **Windows(PowerShell):** .\setup.ps1 安装程序交互式(选择组件 + 代理集成),并通过systemd / launchd / 任务计划程序自动启动。免费且采用MIT许可证。**GitHub:** https://github.com/groxaxo/opencode-voice-service 在一台无GPU的四年前ThinkPad上运行良好。欢迎就VAD调优或ONNX性能问题提问。
相似文章
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
你的语音助手响应慢可能不是因为大语言模型。
一位开发者驳斥了常见的观点,即LLM延迟是语音助手响应慢的主要原因,并解释说,延迟往往源于更早的阶段,如音频捕获、语音活动检测(VAD)和语音转文字(STT)。他建议记录特定的延迟指标,并测试不同的STT/TTS提供商和编排框架来诊断问题。
@badlogicgames:pibot 现在完全本地运行,使用 parakeet 进行语音转文字(STT),qwen3-tts 进行文字转语音(TTS),以及 Qwen 3.6 作为本地的多模态大语言模型……
pibot 现已完全本地化,采用 Parakeet 进行语音转文字(STT),Qwen3-tts 进行文字转语音(TTS),并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型,推理引擎基于 Rust/mlx-c,实现了零 Python 依赖。
Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary
Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.
@songjunkr:分享我的个人本地LLM配置:设备:MacStudio M2 Ultra 64GB,加载模型:SuperQwen3.6 35b mlx 4bit…
一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈,组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型,用于编程与聊天。