一位客户付钱让我把他们工具中的AI移除。
摘要
一位开发者构建了一个基于LLM的工单路由工具,但支持团队不信任其黑箱决策。客户付费将LLM替换为简单的规则引擎,结果准确率更高、成本更低、用户信任度也更高。
我为企业做自动化和AI代理。到目前为止已经服务过大约四十位客户,大多是中小型团队。今年早些时候的这个案例现在回想起来还是让我感触很深。我为一家支持团队构建了一个工单路由工具。团队大约十五人,每天通过Zendesk接收约90到100个工单。他们需要按类别和优先级对每个工单进行标记,以便进入正确的队列。我用了LLM进行分类。这看上去是显而易见的选择。输入工单文本,返回类别和优先级分数,自动路由。测试时效果很好。演示时客户也很满意。但上线后准确率大约为92%。听起来还行,但算一下就发现问题了。按照他们的工单量,每天大约有7到8个工单被错误路由。不算灾难,但足以让团队注意到。而且当工单进入错误队列时,没人能解释原因。模型就这么决定了。没有规则可以指向,没有逻辑可以追溯。它有时就是会出错,而你只能接受。几周内,团队开始对每一条分类进行抽查才能信任。这意味着他们基本上是在做两遍工作:一遍是代理,一遍是人来确保代理没有搞砸。客户打电话给我,说了一句我没想到的话。他说这个工具感觉像个黑箱,他的团队不信任它。他问我能不能让它变得更笨。于是我移除了LLM,替换成一个关键词匹配器和简短的规则引擎。如果工单提到“billing”、“invoice”或“charge”,就转到账务。如果提到“login”、“password”或“access”,就转到账户。总共大约三十条规则。对于任何不匹配的内容,系统只显示一个下拉菜单,让客服代表手动选择。我花了三天重建。准确率提升到基本99%,因为规则透明,团队能清楚看到工单为什么去了某个地方。当出现问题时,他们可以告诉我哪条规则出错了,我十分钟内就能修复。延迟从每工单两到三秒降为即时。月度API成本从约180美元降为零。客户告诉我这是他在这项目上花得最值的钱——付钱让我把AI移除。我经常思考这件事,因为如果只是调整提示词、追求更高准确率、试图让团队随着时间推移信任它,那很容易。大多数人都会这么做——模型只需要更好的指令,对吧。但问题从来不是准确率。问题在于人们需要理解系统为什么做某件事,否则他们会绕过它。同样的情况也发生在CRM中做决策的代理、线索资格认定或任何分类系统上。如果使用者无法追溯逻辑,他们就会在旁边建立一个影子流程,而你的工具就成了昂贵的摆设。并非每件事都需要LLM。有时候三十条规则加一个下拉菜单就能胜过模型,因为团队真正信任它,不再需要检查它的工作。在做了四十多个项目后,我学到的一点是:正确的答案有时是更少的AI,而不是更多。在这个社区里说这个有点奇怪,但这是真的。
相似文章
使用 LLM 构建的创始人——您会付费让人搭建 AI 成本追踪和提供商路由基础设施吗?验证一个想法。
一位创始人寻求对其服务进行验证,该服务利用开源工具配置生产级 LLM 网关,以解决企业常见问题,如成本可见性、供应商锁定和个人身份信息(PII)泄露。
过去8个月里,我用AI替代了6个付费工具。其中两次替换是个错误。这里如实分析。
一位自由工作者在过去八个月中用AI替换了六个付费工具,每年节省约500美元,但发现AI不适合SEO研究和会计软件等核心工具。
运行一个全天候AI智能体开发团队:按角色分配不同LLM(Claude/Kimi/MiniMax/GPT),避免每月约2000美元的API费用。设置与常见故障点。
作者描述了一种设置,将不同的AI模型分配给特定角色(规划、编码、审查),以降低全天候自主工程团队的API成本,并分享了常见的故障点,如模型偏离任务和幻觉式所有权归属。
我让一个AI代理做我的无聊行政工作,它居然还行
一位小企业主分享了使用名为'autoclaw'的AI代理来自动化电子邮件、客户报告以及将支持工单转移到GitHub等行政任务的经验。在最初的设置挫折和过度连接之后,他们最终采用了有限的集成,尽管偶尔输出垃圾内容,但节省了时间。
研究人员让AI智能体优化LLM推理,Token用量锐减70%
研究人员开发了AutoTTS框架,通过AI智能体自动设计控制策略来优化LLM推理,在保持高推理准确率的同时,将Token消耗降低约70%。