构建智能体的难点不在于开发一个,而在于运维五个。
摘要
本文讨论了在生产环境中运行多个AI智能体的运维挑战,强调可观测性、恢复与会话管理,而非单个智能体的初期开发。
在智能体相关的讨论中,一个模式反复出现:第一个智能体并非难点。真正的难点始于你需要同时运行多个智能体,它们反复执行任务,涉及工具、状态、审批、重试和部分失败。问题变得不那么光鲜:
- 哪个智能体执行了这个任务?
- 哪些工具或MCP服务器可用?
- 它改变了什么?
- 它停止了、失败了,还是等待审批?
- 哪个验证器/测试阶段通过了它?
- 我能重放这次运行,或将其与上一次正常运行进行比较吗?
- 当上下文在任务中途耗尽时,我该怎么办?
我认为,很多关于智能体可靠性的工作,本质上就是智能体运维工作。框架可以帮助构建智能体,但团队仍然需要一个围绕运行、会话、工具、审批和恢复的操作界面。好奇社区中其他人目前是如何处理这些问题的。你们用的是LangSmith风格的回溯、自定义仪表板、Temporal/工作流、Git工作树、电子表格,还是仅仅依赖日志和感觉?
相似文章
关于 AI 智能体的真实内情
一位资深从业者分享了将 25 个以上 AI 智能体部署到生产环境的经验教训,指出记忆、编排和可审计性远比模型选择重要。文章详细介绍了上下文丢失、静默成本循环等常见故障模式,并推荐了包含 Claude Sonnet 4、Pydantic AI 以及 Octopodas 等专用记忆层的技术栈。
@_avichawla: https://x.com/_avichawla/status/2071897559287955680
文章讨论了AI代理的真正挑战不在于构建它们,而在于在生产环境中运行它们,并提出了需要一个操作系统层来管理代理集群,类似于操作系统管理软件进程的方式。
"在什么情况下添加另一个代理实际上会损害您的系统?问这个是因为我的6代理流水线比旧的2代理流水线更慢且更不可靠"
一位开发者分享了使用AI编排框架(LangGraph, CrewAI, AutoGen)的真实体验,指出了原型设计便捷性与生产可靠性之间的权衡,并向社区询问如何处理失败、人机协同和Token成本问题。
AI智能体中最无聊的部分:没人构建,人人都需要
一位实践者回顾了在生产环境中部署AI智能体的经历,指出80%的工程精力花费在工作流、所有权和审批流程上,而非模型本身。他强调,共享上下文和路由这些“无聊层”对于产生实际影响至关重要。
是否有人在生产环境中部署了多智能体AI员工?
关于在生产环境中部署多智能体AI系统的讨论,其中不同的智能体负责规划、执行、沟通和项目管理,询问实际经验与瓶颈。