我花了两个月为AI语音智能体构建可观测性,因为调试它们快把我逼疯了

Reddit r/AI_Agents 工具

摘要

开发者构建了VoiceOBS,一款AI语音智能体的可观测性工具,提供延迟分解、情感分析、幻觉检测等功能,并与Vapi集成。

我一直在Vapi上构建语音智能体,但总是遇到同样的问题:通话出了问题,客户挂断,我却完全不知道原因。是延迟问题吗?LLM产生幻觉了吗?函数调用超时了吗?现有的可观测性工具(如Helicone、Langfuse)只显示提示词和响应,它们是针对文本而非语音构建的。它们无法看到真正破坏语音智能体的那些因素。所以我构建了VoiceOBS。你可以将你的Vapi(正在集成Retell)账户通过webhook连接,然后每次通话都会自动分析: * 延迟分解:STT / LLM / TTS,包含p50和p95 * 每次通话的情感、意图和CSAT预估(由Claude分析) * 幻觉标记 * 完整的可搜索转录 * 结束原因分解,以便了解通话*实际*结束的原因 设置大约需要60秒:注册,创建集成,将webhook URL粘贴到Vapi,发起一次通话,它就会显示分析结果。Beta期间免费(每月100次通话,无需信用卡)。我真正想要的是诚实的反馈——哪些地方令人困惑,缺少什么,什么会让你真正使用它。很高兴回答任何问题。谢谢。
查看原文

相似文章

构建AI代理时如何进行评估与可观测性?

Reddit r/AI_Agents

作者探讨了在生产环境中评估和监控AI代理所面临的挑战,包括离线评估与在线评估、LLM作为评判、链路追踪和成本追踪,并提到Langfuse、LangSmith等工具,但更关注底层流程。

因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。

Reddit r/artificial

我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi