小众观点:大多数生产环境下的AI代理都在盲目运行,而开发者却浑然不知
摘要
一位开发者认为,大多数生产环境下的AI代理缺乏必要的可观测性,例如会话追踪和成本监控,并将其比作在没有监控的情况下部署Web应用。文章质疑代理可观测性是否仍是一个未解决的问题。
最近与几家为客户端构建LangChain/LangGraph代理的开发机构交流过,并在本论坛及r/LangChain上看到了更多讨论。一个模式反复出现:零生产可观测性。没有会话追踪。没有每次会话的成本记录。当代理行为发生变化时也没有警报。通常的回答是:“我们查看OpenAI仪表板”或“如果出了问题,客户会告诉我们”。这在我看来太疯狂了。我们不会在没有Sentry和正常运行监控的情况下部署Web应用。但不知何故,AI代理——这类更加不可预测的系统——却可以在没有任何监控的情况下部署。这只是早期阶段,大家心知肚明吗?还是说代理的可观测性确实是一个未解决的问题?我很好奇那些认真对待此事的公司,其生产环境是如何设置的。
相似文章
我在AI项目中经常看到但没人公开讨论的事情
本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。
给在生产环境中运行 AI 代理的朋友们一个快速问题
一个问题,指出 AI 代理记忆层缺乏可观测性,询问团队在没有完整追踪能力的情况下如何调试错误的检索结果。
我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障,结果令人意外
基于对 50 多个 AI 团队的访谈,作者指出生产环境中的智能体故障往往源于细微的提示词或配置问题,而非深层模型缺陷。文章主张采用版本控制、A/B 测试和实验跟踪等软件工程实践以提高可靠性。
大多数智能体可观测性感觉像是崩溃录像
作者认为,当前的智能体可观测性提供了行动轨迹,但缺乏运行时对行动为何被允许的合理性说明,这对于涉及金钱、数据或通信的生产部署至关重要。
关于 AI 智能体的真实内情
一位资深从业者分享了将 25 个以上 AI 智能体部署到生产环境的经验教训,指出记忆、编排和可审计性远比模型选择重要。文章详细介绍了上下文丢失、静默成本循环等常见故障模式,并推荐了包含 Claude Sonnet 4、Pydantic AI 以及 Octopodas 等专用记忆层的技术栈。