你的语音助手响应慢可能不是因为大语言模型。

Reddit r/AI_Agents 2026/06/17 14:32 新闻

voice-agents latency debugging stt tts performance measurement

摘要

一位开发者驳斥了常见的观点，即LLM延迟是语音助手响应慢的主要原因，并解释说，延迟往往源于更早的阶段，如音频捕获、语音活动检测（VAD）和语音转文字（STT）。他建议记录特定的延迟指标，并测试不同的STT/TTS提供商和编排框架来诊断问题。

调试了几个语音助手流程后的感想：每个人都先责怪LLM。但很多“这个语音助手感觉很慢”的问题，在LLM甚至拿到稳定的转录文本之前就已经出现了。延迟可能来自：麦克风/音频捕获 WebRTC / SIP / 电话 VAD STT 第一个部分结果 STT 最终结果端点检测 LLM 第一个 token 工具调用 TTS 第一个音频音频播放中断处理如果你只测量总响应时间，你什么也学不到。我建议记录：user_speech_start stt_first_partial stt_final llm_first_token tool_call_start tool_call_done tts_first_audio playback_start barge_in_detected 对于STT，我会测试Deepgram、AssemblyAI、Smallest AI Pulse、Speechmatics、Soniox、OpenAI realtime/transcribe。对于TTS，我会测试ElevenLabs、Cartesia、Deepgram Aura、PlayHT。对于编排，根据你想要的掌控程度，可以选择LiveKit/Pipecat/Vapi/Retell。奇怪的是，最快的演示栈并不总是最好的生产栈。在真实通话中，端点检测和部分结果的稳定性非常重要。你们是怎么测量延迟的？p50？p90？p95？还是仅仅“感觉像真人”？

查看原文

你的语音助手响应慢可能不是因为大语言模型。

相似文章

为服务型企业运行生产级语音代理6个月：延迟计算远比演示所暗示的复杂。

我们的语音代理p99为280ms，竞争对手为450ms，但用户却觉得我们的更慢。我们测量了原因。

AI语音代理的实际工作原理

我搭建了一个完全离线的语音循环，对接Ollama和LM Studio——100% CPU，无需GPU，数据绝不离开你的电脑（Silero VAD + Parakeet STT + Supertonic TTS 3）

在构建 AI 辅导系统时，延迟比模型选择更重要

提交意见反馈