AI部署失败往往源于同一个结构性错误:将可逆性视为成本而非特性
摘要
本文认为,AI部署常常失败是因为团队将AI决策的可逆性视为成本而非设计特性,并提供了设计可逆AI系统的示例和原则。
分享一个来自中小企业工作流中AI落地实践的观察,它与更广泛的部署理念相关。那些成功部署AI的团队共享一种特定的设计纪律。而那些部署失败团队则持续违背它。这条纪律是:将AI决策的可逆性视为一等设计需求,而非额外开销。失败部署的常见模式如下:团队识别出一个工作流 → 构建AI来处理它 → 衡量吞吐量提升 → 庆祝。三个月后,他们发现AI做出的决定已经在无人监控的情况下不断累积和恶化,由此产生的后果现在很难纠正,而且团队没有回滚路径,因为这些AI决策已深入到客户关系、合作伙伴协议或下游系统状态中。我曾目睹的一些具体失败案例:
- AI代理自动确认预订,无需人工审核。前60天效果很好。然后,一个配置错误导致该代理在两周内超额预订了30%的沙龙,而无人察觉。这些预订无法在不损害客户关系的情况下干净地取消。修复此问题的机构成本超过了AI提供的六个月的劳动力节省。
- AI工具自动对CRM系统中的潜在客户进行分类。运营人员信任该分类进行优先级排序。三个月后,人工审计发现,由于训练数据的古怪之处,AI系统地错误分类了一个细分群体。管道数据已经错了三个月。基于这些数据的销售决策也错了三个月。理清哪些决策是正确的、哪些是AI驱动的,需要对数千条记录进行人工审计。
- AI以个性化消息大规模自动外发。总体来看转化率尚可。然后,特定收件人将这些消息标记为垃圾邮件并报告给其服务提供商。域名声誉下降。整个公司的邮件投递能力崩溃,而不仅仅是AI发送的部分。恢复花费了6个月,并需要聘请投递能力顾问。
它们的结构性共同点:在每种情况下,AI都在执行随时间累积的操作,而系统内没有任何机制来检测漂移、识别错误或回滚累积的错误。AI被当作一个“即弃式”系统,专注于优化某个指标,而它本应被设计成一个有仪表的系统,将决策呈现出来以供定期人工验证。
防止这种情况的纪律:在部署AI处理工作流之前,应明确回答三个问题。
1. 如果这个AI做出了错误决策,逆转该决策的成本是多少,检测到它需要多长时间?如果逆转代价高昂或检测缓慢,那么在这个工作流中,AI不应该自主决策。
2. AI所操作的底层业务状态的变化率是多少?如果状态变化的速度快于AI配置的更新速度,那么AI基于陈旧数据运行,其决策在做出时看似正确,但在影响业务时已经错误。
3. 触发人工审查的明确暂停条件是什么?没有暂停条件的部署会悄无声息地累积错误,直到错误大到偶然被发现。届时,清理成本远高于定期审查的成本。
重新定义框架:AI作为工具而非替代品
成功的部署将AI视为帮助人类看得更清楚、决策更快的工具,而不是将人类从决策中移除的工具。这是“工具化”框架,而非“替代”框架。工具化部署会产生:
- AI呈现人类可能遗漏的模式
- AI处理重复性子任务,而人类掌握决策点
- AI减轻人类需要注意的认知负担
- AI在人类验证意图后加速执行
替代部署会产生:
- AI处理整个工作流,没有人工检查点
- AI决策累积,没有验证周期
- AI优化可衡量的指标,同时降低不可衡量的指标
- AI故障通过下游损害而非上游审查被发现
被忽略的经济学论点:替代型AI看起来更便宜,因为它消除了人工成本。工具型AI看起来更昂贵,因为它让人类参与其中。真正的成本计算应该包括在错误累积之前检测并逆转错误的期权价值。对于低风险、可逆的决策(如展示推荐结果、对收件箱优先级排序),替代没问题。错误容易检测且逆转成本低。对于高风险、不可逆的决策(如发送影响域名声誉的消息、创建与客户或合作伙伴的承诺、修改记录系统中的记录),替代即使看起来便宜实际上也很昂贵。每当错误在多条决策中累积时,不可逆溢价就超过了劳动力节省。
使这一框架可操作化:在将AI部署到任何工作流之前,一个有用的设计检查是:这个AI将做出的决策的可逆性特征是什么?实际上是不可逆的?难以逆转?有些可逆?容易逆转?支持在此工作流中部署的证据质量如何?有真实验证的强证据?有一些测试的中等证据?基于理论推理的弱证据?监控此部署的操作人员的能力压力如何?高压力还是低压力?时间紧迫还是不紧不慢?这三个答案的交集决定了部署是否合理。实际上不可逆的决策,加上中等证据和高操作压力,正是部署AI的绝对错误位置。容易逆转的决策,加上强证据和低压力,则是绝对正确的位置。大多数团队跳过了这一分析。他们根据演示质量和预计节省来评估AI部署。那些失败的部署正是那些如果进行了可逆性-证据-能力分析本可预测失败,但没人做分析的情况。
未来18个月的AI部署将由哪些团队培养这种纪律、哪些团队继续将AI视为得手就用的替代工具来定义。第一组将产生可持续的竞争优势。第二组将产生昂贵的纠正措施。好奇是否其他人也看到同样的模式,尤其是那些致力于开发系统化框架来评估部署准备情况(而非仅仅部署指标)的人。
相似文章
大多数 AI Agent 的失败是组织设计失败,而非模型失败
文章认为,生产环境中 AI Agent 的失败往往归因于糟糕的组织设计和模糊的责任边界,而非模型本身的局限性。文章提出了一种成熟度模型,区分了 AI 助手、自动化流程和 AI 员工,以指导任务所有权的确立。
我认为大多数公司构建AI的方式是本末倒置的
文章认为,公司过度投资于AI智能(模型能力),而忽视了权威性、问责性和现实表示等关键运行时层,导致AI在机构内行动时可能出现失败。
我在AI项目中经常看到但没人公开讨论的事情
本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。
在实际业务中部署AI最难的部分不是模型本身,而是谁负责‘这个还正确吗?’
本文讨论了AI在业务中的部署失败往往不是因为模型质量,而是因为缺乏对保持模型知识随世界变化而更新的所有权,强调了‘静默漂移’的挑战以及持续运营维护的必要性。
AI系统常以测试中不显现的方式失败?
讨论AI工作流中干净的基准测试环境与混乱的真实世界使用之间的常见差距,导致生产环境失败,并提及评估平台如Confident AI、Braintrust和Langfuse。