一行系统提示修改将模型质量从84%降至52%。人们在生产环境中如何监控语义质量?
摘要
一位开发者分享了他们的经历:一个系统提示的修改导致LLM回答质量下降,却没有触发传统的监控告警,并介绍了他们为监控生产环境中LLM应用的语义质量而构建的内部工具。
几周前,我在一次部署中修改了系统提示的一行。一切看起来正常:
* 错误率保持正常
* 延迟看起来没问题
* 请求都返回200
但回答质量明显变差,我直到11天后才因为用户投诉发现。说实话,这感觉很奇怪,来自常规后端工程,那里的失败通常很快就会显现。对于LLM应用,感觉你可能会有一个技术上健康但一直在给出错误答案的系统。例如:支持机器人开始自信地说退款有效期为60天而不是30天。没有抛出异常,没有触发告警,一切看起来都是绿色的。
那次事件之后,我开始构建一些内部工具来监控语义质量,而不仅仅是基础设施指标。最终被证明有用的主要事项:
* 对采样响应进行后台评估
* 检查幻觉与检索上下文
* 统计比较提示版本而不是目测输出
* 在响应看起来可疑时重试/标记
* 聚类失败以发现重复模式
让我感到惊讶的一件事:LLM-as-judge评分比我预期的要嘈杂得多。在相同的输入上多次运行同一个评判者有时会得到截然不同的分数,所以我开始聚合多次运行的结果,而不是信任单次输出。
好奇其他人在生产环境中是如何处理这个的。大多数团队只是在部署前运行评估吗?人工审核?影子流量?自定义评判管道?感觉“我们从用户投诉中发现”仍然是许多LLM应用的默认监控策略。
相似文章
你的LLM提示词有200行。你真的知道智能体遵从了多少吗?
本文讨论了在生产环境中评估和监控基于LLM的智能体所面临的挑战,涵盖离线评估、提示工程陷阱、可观测性工具、审查队列、标注、聚类、主题分类,以及将人工审查、LLM作为评判和小型分类器进行成本分层的方法。
团队如何大规模处理提示词质量保障?
一位处理约4万次对话/月的公司从业者描述了手动提示词质量保障的瓶颈,并询问团队如何利用自动化系统在生产中检测回归问题和用户挫败感。
大多数大语言模型评估工具是否仍然过于侧重提示词?
作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。
构建独立LLM漂移检测 - 分享方法论,寻求对方法的反馈
作者分享了一种构建外部LLM漂移检测系统的方法论,该系统持续探测模型行为(模式遵循、指令遵循、拒绝率等),以捕捉API性能的静默退化,并邀请对方法、定价和用例的反馈。
在生产环境中调用LLM API时,最常见的问题是什么?
讨论生产环境中调用LLM API时常见的错误,包括速率限制、格式不匹配、响应格式错误、上下文溢出、模型弃用以及静默失败,并引用Datadog的统计数据及相关论文。