自主智能体被高估,直到业务可读

Reddit r/AI_Agents 新闻

摘要

作者认为,如果没有结构化的业务背景和明确的职责范围,自主AI智能体就被高估了。文章分享了来自客户工作的实际经验,其中智能体按固定节奏运行,并在写入操作时接受人工监督。

我一直在为客户工作构建智能体,现在看来,我的看法可能不如那些演示视频那么令人兴奋。我并不真正希望一个智能体醒来后四处巡视并自行决定做什么——至少现在还不是。这听起来很酷,直到工作涉及真实账户、客户数据、预算、CRM、追踪、网站,或者任何一次错误的写入都会造成实际损失的事情。**我信任的是结构化上下文加上明确的职责范围。** 每个客户都有自己的文件夹。邮件、会议记录、通话录音、报价文档、定价、网站内容、CRM备注、追踪备注、广告账户数据、转化数据、以往的测试——所有这些都存放在一个地方。大部分内容通过 n8n、Codex 自动化或任何适合该客户的连接器自动拉取。文件夹结构的重要性超出了我的预期。所有客户采用相同的布局、相同的命名约定、相同的指令文件、相同的连接说明。当我在 Claude Code 或 Codex 中打开一个客户文件夹时,模型并非从空白聊天开始。它首先能够读取业务背景。**这使得智能体大大减少了愚蠢行为。** 它不会试图从“帮助这个客户增长”这样的提示中推理。它可以查看业务的实际情况、我们之前尝试过的方法、近期变化、CRM 数据、广告平台数据、上次会议内容,然后在这些背景下执行一个狭窄的任务。例如: * 每日账户检查 * 追踪审计 * 搜索词审查 * 来源健康检查 * 将记录转化为待办事项 * 转化交接中断检查 * 附带证据的建议草案 这才是具有复利效应的部分。如果我改进一次追踪审计,就可以在每个客户上运行更好的版本。如果某个账户出现奇怪的边界情况,通常会成为一条备注或规则,我以后可以在其他地方复用。 **我更信任按计划运行的智能体,而非开放式的智能体。** 我尝试过让智能体醒来后四处巡视并自行决定重要事项的版本。这听起来很酷。但实际上我目前并不太信任它(说实话,再等六个月吧)。在我的设置中,大多数有用的工作都按固定节奏运行。早晨账户检查、每周搜索词审查、每月报告汇总、周二和周四的深度账户工作。部分通过 Codex 自动化运行,部分通过 n8n,部分仍由我手动触发工作流程。智能体不是路由者——我才是。智能体负责阅读、执行检查、草拟输出,并告诉我哪些需要关注。 我的警报主要通过邮件和 Telegram,而非 Slack。每日账户摘要发送到我的收件箱。Telegram 在我需要快速了解情况或从手机触发某些操作时很有用。如果需要详细信息,我会打开文件夹。 **写入操作保持受控状态。** 预算变更、暂停广告系列、否定关键词、CRM 写入、转化设置、网站部署——任何会改变状态或可能使客户花钱的操作。模型可以草拟、暂存、排队、解释。我在上线前仍需审查。这不是因为我对自动化感到恐惧,而是唯一能在真实账户、平台政策、混乱的追踪、延迟的转化数据以及客户(他们当然不希望智能体在他们的业务中自由发挥)面前站得住脚的版本。 因此,我不太关心“智能体能否全天候运行?”,而是更关注“智能体是否有结构化的工作场所、清晰的任务和严格的审批关卡?” 好奇其他人是如何处理这个问题的。你们是在构建开放式的智能体,还是主要构建带有结构化记忆/上下文的作用域智能体?
查看原文

相似文章

我认为很多人低估了不可靠 Agent 的成本有多高

Reddit r/AI_Agents

作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。