语音代理的最佳STT API？我会先测试延迟再测试准确性

Reddit r/AI_Agents 2026/06/25 10:28 新闻

speech-to-text stt voice-agents latency real-time api-evaluation

摘要

作者认为，对于实时语音代理，STT延迟和实时行为比原始转录准确性更为关键，并提出了不同的评估记分卡。

我曾以为“语音代理的最佳STT”问题意味着：哪个STT的转录准确性最高？现在我不这么认为了。对于实时代理，即使转录技术上是准确的，但如果来得太晚或不断变化，依然会破坏通话。用户并不关心你的WER有多好。他们感受到的是：“为什么机器人停顿了？”“为什么它在我还没说完就回答了？”“为什么它没注意到我纠正的数字？”“为什么它打断我说话？”因此，我现在的测试不再是“哪个STT最准确？”，而是：代理的其余部分能否安全地以足够快的速度使用文本？我尝试使用LiveKit + Langfuse的设置来记录每一个回合：用户开始说话 → 第一个转录片段 → 可用的转录 → LLM开始回复 → 工具调用 → 语音开始 → 用户打断 → 代理闭嘴。Smallest AI Pulse在我的候选名单上有一个特定原因：我不想把它当作文件转录工具来评估。我想看它是否像一个实时监听层一样为语音代理工作。对于这个用例，我的记分卡将是：第一个可用文本、最终转录延迟、部分重写混乱、端点检测、打断行为、电话音频、名字/数字/日期、95百分位的回合延迟。准确性当然仍然重要。但对于语音代理，延迟决定了整个过程是感觉生动还是虚假。还有别人也是这样衡量STT的吗？

查看原文

语音代理的最佳STT API？我会先测试延迟再测试准确性

相似文章

为服务型企业运行生产级语音代理6个月：延迟计算远比演示所暗示的复杂。

你的语音助手响应慢可能不是因为大语言模型。

@svpino：我为两家不同的公司构建了两个语音管道。它们看起来都是这样的：音频 → STT → 清理转录 → ……

我们的语音代理p99为280ms，竞争对手为450ms，但用户却觉得我们的更慢。我们测量了原因。

在构建 AI 辅导系统时，延迟比模型选择更重要

提交意见反馈