我厌倦了手动调试追踪

Reddit r/AI_Agents 工具

摘要

一位开发者构建了一个AI代理调试工具,通过比较重放与参考运行来识别行为首次偏离的位置,表达了对手动追踪调试的挫败感。

我感觉最近有很多关于代理的帖子:代理第一次运行正常,但下一次就会出问题。不同的工具调用,不同的参数,奇怪的分支,循环,状态问题等等。追踪/日志虽然存在,但你最终还是得手动找出行为实际发生变化的位置。我们自己在一些代理项目中也遇到过这种情况,所以我和我的朋友开始为自己构建一个调试工具。思路很简单:将重放与参考运行进行比较,并显示行为首次偏离的位置。想了解一下大家现在是如何高效调试这类问题的。LangSmith/Langfuse、评估、自定义日志、手动追踪比较,还是其他方法?
查看原文

相似文章

你究竟如何调试AI代理?

Reddit r/AI_Agents

开发者分享了在生产环境中调试AI代理的困境,指出了幻觉问题、提示词更改导致的回归以及高昂的API成本,并向社区征求策略。