在实际业务中部署AI最难的部分不是模型本身,而是谁负责‘这个还正确吗?’

Reddit r/ArtificialInteligence 新闻

摘要

本文讨论了AI在业务中的部署失败往往不是因为模型质量,而是因为缺乏对保持模型知识随世界变化而更新的所有权,强调了‘静默漂移’的挑战以及持续运营维护的必要性。

我持续注意到一个模式:AI在实际业务中的部署失败,几乎与模型质量无关。模型通常没问题。导致失败的原因是模型所处的世界发生了变化,而没有人负责保持其知识的时效性。一个系统被部署时,它了解业务规则、价格、营业时间、政策。然后现实发生了漂移:价格变动,政策取消,出现例外情况。模型仍然自信地回答,只是现在答错了。而“自信且错误”对信任的侵蚀速度,“我不知道”永远无法企及。这种失败在有人投诉之前是不可见的。难处在于,很多相关知识并不存在于任何你可以同步的系统中。它们存在于某个人的脑子里(“我们上个月就不那么做了”)。从数据库中提取只有在数据库得到维护时才有帮助,而从过时的数据库中提取可以说更糟糕,因为答案现在看起来很有权威性。我发现一个有用的框架:过时数据是一个可处理的工程问题(同步、版本管理、标记矛盾),但缺失数据——从未被记录下来的知识——是一个行为改变问题,而把后者当作前者来处理,正是部署无声消亡的原因。有几件事我真心不确定,也很好奇别人怎么看: • “静默漂移”(行为变化但没有明显违反旧规则)是否除了人工抽查之外还可以解决,还是现实答案只是缩短从人类发现到系统更新的周期? • 部署一个Agent是否真的会促使维护真相来源,因为失败最终变得可归因,而不是依赖于它已经得到了维护? • 对于在生产环境中处理这个问题的人:你们是把已部署的模型视为一个成品,还是一个需要所有者的持续运营服务? 这里并不声称有答案,只是说应用AI中有趣的问题似乎更多是关于组织性和认识论的,而不是关于模型本身的。
查看原文

相似文章

大多数 AI Agent 的失败是组织设计失败,而非模型失败

Reddit r/AI_Agents

文章认为,生产环境中 AI Agent 的失败往往归因于糟糕的组织设计和模糊的责任边界,而非模型本身的局限性。文章提出了一种成熟度模型,区分了 AI 助手、自动化流程和 AI 员工,以指导任务所有权的确立。

我在AI项目中经常看到但没人公开讨论的事情

Reddit r/AI_Agents

本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。