我搭建了一个完全离线的语音循环，对接Ollama和LM Studio——100% CPU，无需GPU，数据绝不离开你的电脑（Silero VAD + Parakeet STT + Supertonic TTS 3）

Reddit r/LocalLLaMA 2026/06/11 02:47 工具

offline voice cpu-only open-source silero-vad parakeet-stt supertonic-tts ollama lm-studio

摘要

一个完全离线、仅使用CPU的语音循环，用于本地大模型，采用Silero VAD、Parakeet STT和Supertonic TTS，通过一条命令整合安装。兼容Ollama、LM Studio以及多种代理框架。

我一直想*用语音*与本地模型交互，而不是打字，但每个语音方案要么需要GPU，要么把音频传到云端，要么只支持macOS。于是我做了个三者都不沾的方案——还对它进行了基准测试，所以这些都是实测数据，而非主观感觉。**一条命令安装整个栈并接入你的代理。然后你只管说话。**所有组件都在CPU上运行，不占用GPU（你的GPU正忙着跑实际的大模型）： - **Silero VAD** —— 监听说话起止，无需按键通话。约0.09毫秒/帧。 - **Parakeet TDT 0.6B v3** —— 本地ONNX INT8语音转文字，支持25种语言，在:5093提供OpenAI兼容接口。一段2.5秒的录音转录耗时约280毫秒（约9倍实时）。 - **Supertonic TTS 3** —— 本地ONNX FP16语音合成，多语言，支持F1–F5 / M1–M5声线。一段简短回复渲染约1.7秒（1.6–2.8倍实时），且TTS→STT往返后文字逐字匹配。**实测平台：普通i7-12700KF，仅CPU，未动用GPU**——我的两张3090都满载运行vLLM中的大模型，这正是关键点：语音跑在CPU上，显存留给模型。**与你使用的任何代理兼容——一次安装即可向所有代理注入`talk`技能：** Claude Code、Hermes Agent、OpenClaw、OpenCode和Codex。同一安装程序还会自动安装并启动STT + TTS后端。**数据流——绝不离开本地：** 你 -> Silero VAD（CPU）-> Parakeet STT（CPU）-> 你的大模型（Ollama / LM Studio / vLLM）-> Supertonic 3（CPU）-> 扬声器 **安装（macOS / Linux）：** git clone https://github.com/groxaxo/opencode-voice-service cd opencode-voice-service && ./setup.sh **Windows（PowerShell）：** .\setup.ps1 安装程序交互式（选择组件 + 代理集成），并通过systemd / launchd / 任务计划程序自动启动。免费且采用MIT许可证。**GitHub：** https://github.com/groxaxo/opencode-voice-service 在一台无GPU的四年前ThinkPad上运行良好。欢迎就VAD调优或ONNX性能问题提问。

查看原文

相似文章

本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

你的语音助手响应慢可能不是因为大语言模型。

Reddit r/AI_Agents

一位开发者驳斥了常见的观点，即LLM延迟是语音助手响应慢的主要原因，并解释说，延迟往往源于更早的阶段，如音频捕获、语音活动检测（VAD）和语音转文字（STT）。他建议记录特定的延迟指标，并测试不同的STT/TTS提供商和编排框架来诊断问题。

@badlogicgames：pibot 现在完全本地运行，使用 parakeet 进行语音转文字（STT），qwen3-tts 进行文字转语音（TTS），以及 Qwen 3.6 作为本地的多模态大语言模型……

X AI KOLs Following

pibot 现已完全本地化，采用 Parakeet 进行语音转文字（STT），Qwen3-tts 进行文字转语音（TTS），并通过 llama.cpp 使用 Qwen 3.6 作为本地多模态大语言模型，推理引擎基于 Rust/mlx-c，实现了零 Python 依赖。

Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary

Reddit r/LocalLLaMA

Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.

@songjunkr：分享我的个人本地LLM配置：设备：MacStudio M2 Ultra 64GB，加载模型：SuperQwen3.6 35b mlx 4bit…

X AI KOLs Timeline

一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈，组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型，用于编程与聊天。