我搭建了一个完全离线的语音循环,对接Ollama和LM Studio——100% CPU,无需GPU,数据绝不离开你的电脑(Silero VAD + Parakeet STT + Supertonic TTS 3)

Reddit r/LocalLLaMA 工具

摘要

一个完全离线、仅使用CPU的语音循环,用于本地大模型,采用Silero VAD、Parakeet STT和Supertonic TTS,通过一条命令整合安装。兼容Ollama、LM Studio以及多种代理框架。

我一直想*用语音*与本地模型交互,而不是打字,但每个语音方案要么需要GPU,要么把音频传到云端,要么只支持macOS。于是我做了个三者都不沾的方案——还对它进行了基准测试,所以这些都是实测数据,而非主观感觉。**一条命令安装整个栈并接入你的代理。然后你只管说话。**所有组件都在CPU上运行,不占用GPU(你的GPU正忙着跑实际的大模型): - **Silero VAD** —— 监听说话起止,无需按键通话。约0.09毫秒/帧。 - **Parakeet TDT 0.6B v3** —— 本地ONNX INT8语音转文字,支持25种语言,在:5093提供OpenAI兼容接口。一段2.5秒的录音转录耗时约280毫秒(约9倍实时)。 - **Supertonic TTS 3** —— 本地ONNX FP16语音合成,多语言,支持F1–F5 / M1–M5声线。一段简短回复渲染约1.7秒(1.6–2.8倍实时),且TTS→STT往返后文字逐字匹配。**实测平台:普通i7-12700KF,仅CPU,未动用GPU**——我的两张3090都满载运行vLLM中的大模型,这正是关键点:语音跑在CPU上,显存留给模型。**与你使用的任何代理兼容——一次安装即可向所有代理注入`talk`技能:** Claude Code、Hermes Agent、OpenClaw、OpenCode和Codex。同一安装程序还会自动安装并启动STT + TTS后端。**数据流——绝不离开本地:** 你 -> Silero VAD(CPU)-> Parakeet STT(CPU)-> 你的大模型(Ollama / LM Studio / vLLM)-> Supertonic 3(CPU)-> 扬声器 **安装(macOS / Linux):** git clone https://github.com/groxaxo/opencode-voice-service cd opencode-voice-service && ./setup.sh **Windows(PowerShell):** .\setup.ps1 安装程序交互式(选择组件 + 代理集成),并通过systemd / launchd / 任务计划程序自动启动。免费且采用MIT许可证。**GitHub:** https://github.com/groxaxo/opencode-voice-service 在一台无GPU的四年前ThinkPad上运行良好。欢迎就VAD调优或ONNX性能问题提问。
查看原文

相似文章

你的语音助手响应慢可能不是因为大语言模型。

Reddit r/AI_Agents

一位开发者驳斥了常见的观点,即LLM延迟是语音助手响应慢的主要原因,并解释说,延迟往往源于更早的阶段,如音频捕获、语音活动检测(VAD)和语音转文字(STT)。他建议记录特定的延迟指标,并测试不同的STT/TTS提供商和编排框架来诊断问题。