标签
OpenAI探讨了公共聊天数据(WildChat)能否有效预测现实世界中的AI不匹配问题,发现使用公共数据集的模拟部署能够提供惊人的准确失败率预测,尽管存在数据时间间隔。
本文认为,大多数 RAG 基准测试具有误导性,因为它们假设语料库质量均匀,而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据,本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。
讨论防止AI编码代理意外修改生产数据库的策略,主张使用只读访问、沙盒环境和审批关口,而不是仅仅依赖提示。