我们是否高估了模型智能,低估了工作流质量?
摘要
文章认为,令人印象深刻的AI与无用的AI之间的区别往往不在于模型本身,而在于围绕它的工作流——上下文、记忆、工具访问和编排。它表明,工作流架构可能成为比原始模型能力更重要的竞争优势。
我越使用AI系统,就越觉得“感觉神奇的AI”和“感觉无用的AI”之间的最大区别不在于模型本身,而在于围绕它的工作流。同样的模型。同样的API。完全不同的结果,取决于:* 上下文质量 * 记忆结构 * 工具访问 * 检索质量 * 可观测性 * 人工反馈循环 * 编排逻辑 很多人仍然通过孤立的提示来评估AI,但生产系统越来越像操作管道而不是聊天机器人。而且感觉大多数“智能体失败”实际上是工作流失败:* 错误的上下文检索 * 糟糕的状态管理 * 弱的验证 * 无回退逻辑 * 不清晰的任务分解 * 缺乏监控/评估 与此同时,拥有强大工作流的小模型往往胜过在混乱环境中运行的大模型。好奇这里是否有人看到同样的转变:真正的护城河是否变成工作流架构而非原始模型能力?
相似文章
AI 智能体开始暴露出大多数工作流程原本就已支离破碎的事实
文章认为,AI 智能体揭示了企业工作流程实际上是多么缺乏结构和混乱不堪,暗示成功的自动化更多取决于整洁的系统和完善文档,而非先进的模型。
演示并非工作流
文章认为,企业AI的真正挑战并非获取模型,而是将AI融入工作流,并配备适当的边界和审核流程。
使用AI助手几个月后,我最大的观察
个人对具有持久记忆的AI助手变革潜力的反思,认为上下文和工作流组织将比模型本身更重要。
大多数 AI Agent 的失败是组织设计失败,而非模型失败
文章认为,生产环境中 AI Agent 的失败往往归因于糟糕的组织设计和模糊的责任边界,而非模型本身的局限性。文章提出了一种成熟度模型,区分了 AI 助手、自动化流程和 AI 员工,以指导任务所有权的确立。
AI基准测试不如模型能否处理乏味的现实责任重要
文章认为,AI基准测试和华丽的演示被过度强调了;真正考验AI可信度的是模型如何处理乏味的现实责任,如遵循指令、承认不确定性、处理边缘情况以及可审计性。