我为数十个客户构建了AI代理。以下是大多数在生产中失败的原因(而且不是模型的问题)

Reddit r/artificial 新闻

摘要

一位开发者分享了AI代理在生产中失败的三个常见原因:RAG分块不佳、仅针对演示的提示词、以及缺乏回退逻辑,强调模型质量很少是主要问题。

我看到很多人部署的AI代理在演示中完美运行,但一旦真实用户使用就会崩溃。在为多个客户构建自动化系统后,我注意到失败几乎从来不是因为选错了LLM,而是来自三个方面:**1. RAG管道中的分块不佳。** 每个人都太专注于选择合适的向量数据库,以至于没有考虑如何拆分文档。垃圾进,垃圾出。如果你的分块没有跨句子保留上下文,检索效果永远只是一般。**2. 为演示编写的提示词,而非边缘情况。** 演示输入是干净的。真实用户输入则是奇怪的、模糊的,有时甚至是故意破坏的。如果你没有用糟糕的输入对提示词进行压力测试,它会在公开场合失败。**3. 缺乏回退逻辑。** 当代理困惑时,它该怎么办?大多数开发者从未回答这个问题。于是代理要么自信地产生幻觉,要么什么都不返回。两者都不好。模型通常是最不应该被指责的。先修复基础架构。有人也遇到这种情况吗?很好奇你见过的失败模式。https://preview.redd.it/vd9yyzkpzn4h1.png?width=1536&format=png&auto=webp&s=e81e5a1b4a7c4d82542c8cbc5cdf9712f30ff393
查看原文

相似文章

我在AI项目中经常看到但没人公开讨论的事情

Reddit r/AI_Agents

本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。

为什么80%的智能体AI演示无法投入生产

Reddit r/AI_Agents

本文解释了为什么80%的智能体AI演示因幻觉、工具使用错误累积、边缘情况、成本、延迟和可观测性问题而无法进入生产环境。文章强调了成功的关键:窄范围、可验证输出、人工检查点、真实可观测性、基于置信度的门控以及简单架构。