自主智能体被高估,直到业务可读
摘要
作者认为,如果没有结构化的业务背景和明确的职责范围,自主AI智能体就被高估了。文章分享了来自客户工作的实际经验,其中智能体按固定节奏运行,并在写入操作时接受人工监督。
我一直在为客户工作构建智能体,现在看来,我的看法可能不如那些演示视频那么令人兴奋。我并不真正希望一个智能体醒来后四处巡视并自行决定做什么——至少现在还不是。这听起来很酷,直到工作涉及真实账户、客户数据、预算、CRM、追踪、网站,或者任何一次错误的写入都会造成实际损失的事情。**我信任的是结构化上下文加上明确的职责范围。**
每个客户都有自己的文件夹。邮件、会议记录、通话录音、报价文档、定价、网站内容、CRM备注、追踪备注、广告账户数据、转化数据、以往的测试——所有这些都存放在一个地方。大部分内容通过 n8n、Codex 自动化或任何适合该客户的连接器自动拉取。文件夹结构的重要性超出了我的预期。所有客户采用相同的布局、相同的命名约定、相同的指令文件、相同的连接说明。当我在 Claude Code 或 Codex 中打开一个客户文件夹时,模型并非从空白聊天开始。它首先能够读取业务背景。**这使得智能体大大减少了愚蠢行为。**
它不会试图从“帮助这个客户增长”这样的提示中推理。它可以查看业务的实际情况、我们之前尝试过的方法、近期变化、CRM 数据、广告平台数据、上次会议内容,然后在这些背景下执行一个狭窄的任务。例如:
* 每日账户检查
* 追踪审计
* 搜索词审查
* 来源健康检查
* 将记录转化为待办事项
* 转化交接中断检查
* 附带证据的建议草案
这才是具有复利效应的部分。如果我改进一次追踪审计,就可以在每个客户上运行更好的版本。如果某个账户出现奇怪的边界情况,通常会成为一条备注或规则,我以后可以在其他地方复用。
**我更信任按计划运行的智能体,而非开放式的智能体。** 我尝试过让智能体醒来后四处巡视并自行决定重要事项的版本。这听起来很酷。但实际上我目前并不太信任它(说实话,再等六个月吧)。在我的设置中,大多数有用的工作都按固定节奏运行。早晨账户检查、每周搜索词审查、每月报告汇总、周二和周四的深度账户工作。部分通过 Codex 自动化运行,部分通过 n8n,部分仍由我手动触发工作流程。智能体不是路由者——我才是。智能体负责阅读、执行检查、草拟输出,并告诉我哪些需要关注。
我的警报主要通过邮件和 Telegram,而非 Slack。每日账户摘要发送到我的收件箱。Telegram 在我需要快速了解情况或从手机触发某些操作时很有用。如果需要详细信息,我会打开文件夹。
**写入操作保持受控状态。** 预算变更、暂停广告系列、否定关键词、CRM 写入、转化设置、网站部署——任何会改变状态或可能使客户花钱的操作。模型可以草拟、暂存、排队、解释。我在上线前仍需审查。这不是因为我对自动化感到恐惧,而是唯一能在真实账户、平台政策、混乱的追踪、延迟的转化数据以及客户(他们当然不希望智能体在他们的业务中自由发挥)面前站得住脚的版本。
因此,我不太关心“智能体能否全天候运行?”,而是更关注“智能体是否有结构化的工作场所、清晰的任务和严格的审批关卡?” 好奇其他人是如何处理这个问题的。你们是在构建开放式的智能体,还是主要构建带有结构化记忆/上下文的作用域智能体?
相似文章
我最近一直在为企业开发 AI Agent,我认为大多数人高估了自主性,却低估了可靠性。
作者认为,在企业级 AI Agent 开发中,运行的可靠性和稳定性比高度自主性更为关键,倡导受控智能而非完全自主的系统。
目前 AI 智能体最大的谎言在于:更高的自主性自动意味着更高的价值
文章认为,AI 智能体的高自主性会增加错误发生的成本,因此主张采用受约束的、可靠的智能体,将安全性和可预测性置于无限制的能力之上。
@shcallaway:高估:并行跑海量 agent;同时开太多任务;无限上下文切换;提一堆可能永远合不进去的低质量 PR。
作者认为,同时跑大量 AI agent、无限上下文切换被严重高估;相反,一次只深耕一两个 agent,专注完成高质量作品才是被低估的做法。
我认为很多人低估了不可靠 Agent 的成本有多高
作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。
AI 智能体开始暴露出大多数工作流程原本就已支离破碎的事实
文章认为,AI 智能体揭示了企业工作流程实际上是多么缺乏结构和混乱不堪,暗示成功的自动化更多取决于整洁的系统和完善文档,而非先进的模型。