production-data

#production-data

@OpenAI: 部署模拟使用代表性生产数据效果最佳，而外部评估者通常无法获取这些数据。关于…

X AI KOLs ↗ · 6小时前缓存

OpenAI探讨了公共聊天数据（WildChat）能否有效预测现实世界中的AI不匹配问题，发现使用公共数据集的模拟部署能够提供惊人的准确失败率预测，尽管存在数据时间间隔。

0 人收藏 0 人点赞

#production-data

Reddit r/AI_Agents ↗ · 2026-05-23

本文认为，大多数 RAG 基准测试具有误导性，因为它们假设语料库质量均匀，而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据，本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。

0 人收藏 0 人点赞

#production-data

Reddit r/AI_Agents ↗ · 2026-05-22

讨论防止AI编码代理意外修改生产数据库的策略，主张使用只读访问、沙盒环境和审批关口，而不是仅仅依赖提示。

0 人收藏 0 人点赞