我们不断改进AI,却毫无变化。
摘要
文章认为,AI项目失败的原因并非模型性能不佳,而是缺乏信任和采用。强调提升信任和处理枯燥的基础设施比模型准确性更重要。
大多数AI项目失败并非因为模型本身,而是因为没有人足够信任它们来实际使用。团队花费数周比较:GPT与Claude、代理框架、提示策略、基准测试。然后项目悄然消亡。不是因为AI不好,而是因为没有人解决那些枯燥的事情。例如:验证、监控、人工审批流程、错误处理、责任归属。依我的经验,改进模型通常只能带来微小收益,而改进信任则能改变一切。一个90%准确率且人们信任的代理能创造价值。一个99%准确率却无人信任的代理会被忽略。AI最大的挑战不是智能,而是采用。好奇其他人是否也有同感。是什么真正扼杀了你参与过的AI项目?
相似文章
为什么你的团队悄悄停止使用了那个没人承认弃用的AI工具
分析团队因信任破裂而悄悄弃用AI工具的原因,指出真正的问题不在于模型质量,而在于缺乏信任架构——设计能够清晰指示AI输出何时可靠、何时需要验证的工作流程。
更智能的AI代理并不意味着更好的AI代理
文章认为,提高AI代理的能力并不会自然而然地提升其可靠性,强调需要建立类似会计标准的稳健控制系统、审计和人类监督,以防止令人信服的失败。
大多数 AI Agent 的失败是组织设计失败,而非模型失败
文章认为,生产环境中 AI Agent 的失败往往归因于糟糕的组织设计和模糊的责任边界,而非模型本身的局限性。文章提出了一种成熟度模型,区分了 AI 助手、自动化流程和 AI 员工,以指导任务所有权的确立。
我在AI项目中经常看到但没人公开讨论的事情
本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。
AI基准测试不如模型能否处理乏味的现实责任重要
文章认为,AI基准测试和华丽的演示被过度强调了;真正考验AI可信度的是模型如何处理乏味的现实责任,如遵循指令、承认不确定性、处理边缘情况以及可审计性。