我花了两个月为AI语音智能体构建可观测性,因为调试它们快把我逼疯了
摘要
开发者构建了VoiceOBS,一款AI语音智能体的可观测性工具,提供延迟分解、情感分析、幻觉检测等功能,并与Vapi集成。
我一直在Vapi上构建语音智能体,但总是遇到同样的问题:通话出了问题,客户挂断,我却完全不知道原因。是延迟问题吗?LLM产生幻觉了吗?函数调用超时了吗?现有的可观测性工具(如Helicone、Langfuse)只显示提示词和响应,它们是针对文本而非语音构建的。它们无法看到真正破坏语音智能体的那些因素。所以我构建了VoiceOBS。你可以将你的Vapi(正在集成Retell)账户通过webhook连接,然后每次通话都会自动分析:
* 延迟分解:STT / LLM / TTS,包含p50和p95
* 每次通话的情感、意图和CSAT预估(由Claude分析)
* 幻觉标记
* 完整的可搜索转录
* 结束原因分解,以便了解通话*实际*结束的原因
设置大约需要60秒:注册,创建集成,将webhook URL粘贴到Vapi,发起一次通话,它就会显示分析结果。Beta期间免费(每月100次通话,无需信用卡)。我真正想要的是诚实的反馈——哪些地方令人困惑,缺少什么,什么会让你真正使用它。很高兴回答任何问题。谢谢。
相似文章
被Vapi坑后,我自建了语音AI平台。撰写了我寻找平台过程中学到的所有经验。
作者分享因不满Vapi而自建语音AI平台的经验教训,揭示了隐藏成本、实际延迟问题和白标的缺陷,并为评估平台的代理机构业主提供免费指南。
在生产语音AI栈中我们反复看到的五个可观测性缺口
讨论了生产语音AI栈中五个常见的可观测性缺口,包括基础设施故障与对话失败混合、缺乏VAD可见性、采样不足、自动生成的评估噪音大以及评估层级错误。
构建AI代理时如何进行评估与可观测性?
作者探讨了在生产环境中评估和监控AI代理所面临的挑战,包括离线评估与在线评估、LLM作为评判、链路追踪和成本追踪,并提到Langfuse、LangSmith等工具,但更关注底层流程。
贵公司使用哪个平台满足AI代理的可观测性和可靠性需求?
一位构建多代理金融工作流的开发者寻求社区关于生产环境中AI代理可观测性和可靠性工具的建议,分享了对碎片化现状和级联故障的困扰。
因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。
我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi