构建智能体的难点不在于开发一个，而在于运维五个。

Reddit r/AI_Agents 2026/05/12 14:21 新闻

agents operations observability deployment reliability tooling mcp

摘要

本文讨论了在生产环境中运行多个AI智能体的运维挑战，强调可观测性、恢复与会话管理，而非单个智能体的初期开发。

在智能体相关的讨论中，一个模式反复出现：第一个智能体并非难点。真正的难点始于你需要同时运行多个智能体，它们反复执行任务，涉及工具、状态、审批、重试和部分失败。问题变得不那么光鲜： - 哪个智能体执行了这个任务？ - 哪些工具或MCP服务器可用？ - 它改变了什么？ - 它停止了、失败了，还是等待审批？ - 哪个验证器/测试阶段通过了它？ - 我能重放这次运行，或将其与上一次正常运行进行比较吗？ - 当上下文在任务中途耗尽时，我该怎么办？我认为，很多关于智能体可靠性的工作，本质上就是智能体运维工作。框架可以帮助构建智能体，但团队仍然需要一个围绕运行、会话、工具、审批和恢复的操作界面。好奇社区中其他人目前是如何处理这些问题的。你们用的是LangSmith风格的回溯、自定义仪表板、Temporal/工作流、Git工作树、电子表格，还是仅仅依赖日志和感觉？

查看原文

构建智能体的难点不在于开发一个，而在于运维五个。

相似文章

关于 AI 智能体的真实内情

@_avichawla: https://x.com/_avichawla/status/2071897559287955680

"在什么情况下添加另一个代理实际上会损害您的系统？问这个是因为我的6代理流水线比旧的2代理流水线更慢且更不可靠"

AI智能体中最无聊的部分：没人构建，人人都需要

是否有人在生产环境中部署了多智能体AI员工？

提交意见反馈