自主智能体被高估，直到业务可读

Reddit r/AI_Agents 2026/05/15 09:47 新闻

autonomous-agents structured-context scoped-jobs client-work ai-agents practical-ai business-readability

摘要

作者认为，如果没有结构化的业务背景和明确的职责范围，自主AI智能体就被高估了。文章分享了来自客户工作的实际经验，其中智能体按固定节奏运行，并在写入操作时接受人工监督。

我一直在为客户工作构建智能体，现在看来，我的看法可能不如那些演示视频那么令人兴奋。我并不真正希望一个智能体醒来后四处巡视并自行决定做什么——至少现在还不是。这听起来很酷，直到工作涉及真实账户、客户数据、预算、CRM、追踪、网站，或者任何一次错误的写入都会造成实际损失的事情。**我信任的是结构化上下文加上明确的职责范围。** 每个客户都有自己的文件夹。邮件、会议记录、通话录音、报价文档、定价、网站内容、CRM备注、追踪备注、广告账户数据、转化数据、以往的测试——所有这些都存放在一个地方。大部分内容通过 n8n、Codex 自动化或任何适合该客户的连接器自动拉取。文件夹结构的重要性超出了我的预期。所有客户采用相同的布局、相同的命名约定、相同的指令文件、相同的连接说明。当我在 Claude Code 或 Codex 中打开一个客户文件夹时，模型并非从空白聊天开始。它首先能够读取业务背景。**这使得智能体大大减少了愚蠢行为。** 它不会试图从“帮助这个客户增长”这样的提示中推理。它可以查看业务的实际情况、我们之前尝试过的方法、近期变化、CRM 数据、广告平台数据、上次会议内容，然后在这些背景下执行一个狭窄的任务。例如： * 每日账户检查 * 追踪审计 * 搜索词审查 * 来源健康检查 * 将记录转化为待办事项 * 转化交接中断检查 * 附带证据的建议草案这才是具有复利效应的部分。如果我改进一次追踪审计，就可以在每个客户上运行更好的版本。如果某个账户出现奇怪的边界情况，通常会成为一条备注或规则，我以后可以在其他地方复用。 **我更信任按计划运行的智能体，而非开放式的智能体。** 我尝试过让智能体醒来后四处巡视并自行决定重要事项的版本。这听起来很酷。但实际上我目前并不太信任它（说实话，再等六个月吧）。在我的设置中，大多数有用的工作都按固定节奏运行。早晨账户检查、每周搜索词审查、每月报告汇总、周二和周四的深度账户工作。部分通过 Codex 自动化运行，部分通过 n8n，部分仍由我手动触发工作流程。智能体不是路由者——我才是。智能体负责阅读、执行检查、草拟输出，并告诉我哪些需要关注。我的警报主要通过邮件和 Telegram，而非 Slack。每日账户摘要发送到我的收件箱。Telegram 在我需要快速了解情况或从手机触发某些操作时很有用。如果需要详细信息，我会打开文件夹。 **写入操作保持受控状态。** 预算变更、暂停广告系列、否定关键词、CRM 写入、转化设置、网站部署——任何会改变状态或可能使客户花钱的操作。模型可以草拟、暂存、排队、解释。我在上线前仍需审查。这不是因为我对自动化感到恐惧，而是唯一能在真实账户、平台政策、混乱的追踪、延迟的转化数据以及客户（他们当然不希望智能体在他们的业务中自由发挥）面前站得住脚的版本。因此，我不太关心“智能体能否全天候运行？”，而是更关注“智能体是否有结构化的工作场所、清晰的任务和严格的审批关卡？” 好奇其他人是如何处理这个问题的。你们是在构建开放式的智能体，还是主要构建带有结构化记忆/上下文的作用域智能体？

查看原文

自主智能体被高估，直到业务可读

相似文章

我最近一直在为企业开发 AI Agent，我认为大多数人高估了自主性，却低估了可靠性。

目前 AI 智能体最大的谎言在于：更高的自主性自动意味着更高的价值

@shcallaway：高估：并行跑海量 agent；同时开太多任务；无限上下文切换；提一堆可能永远合不进去的低质量 PR。

我认为很多人低估了不可靠 Agent 的成本有多高

AI 智能体开始暴露出大多数工作流程原本就已支离破碎的事实

提交意见反馈