信任-监督悖论:随着AI变得更好,人类可能不再真正监督它

Reddit r/artificial 新闻

摘要

一篇思想文章,指出随着AI变得更准确,人类监督可能会退化为例行批准,从而产生'信任-监督悖论',即高性能AI仍可能因不完整的表征、过时数据或自动化偏见而失败,建议从人工审查转向治理边界。

我认为最大的AI风险之一可能正在转变。早先,担忧是:“如果AI经常出错怎么办?”但现在我认为更深层的风险可能变成:“当AI足够正确以至于人类不再有意义地质疑它时,会发生什么?”在许多企业系统中,监督慢慢改变形态。最初:人类仔细审查所有内容。然后:他们只审查异常情况。然后:他们浏览解释。然后:他们批准,除非看起来明显有问题。最终,监督变成例行公事而非判断。这就产生了所谓的**信任-监督悖论**:AI准确度越高 → 人类信任越多 → 有意义的审查越少 → 当最终失败发生时治理越困难。危险的部分是:高性能AI仍可能通过以下方式失败:* 不完整的表征,* 过时数据,* 隐藏的依赖关系,* 边界情况,* 错误的升级逻辑,* 自动化偏见,* 或过于自信的推理。模型可能不会产生幻觉。它可能只是在不完整的现实版本上正确推理。我越来越觉得这对以下方面很重要:* 企业AI,* 代理系统,* AI副驾驶,* 自主工作流,* 银行业,* 医疗保健,* 合规,* 以及大规模运营系统。这也是我开始认为“人在回路中”不够的原因。也许未来不是:“人类审查每个输出。”也许未来是:人类治理AI被允许运行的边界。好奇其他人怎么想。
查看原文

相似文章

人在回路中正沦为企业作秀。

Reddit r/AI_Agents

Anthropic 警告称,随着 AI 生成代码的速度超过人类审查速度,人工审查正成为瓶颈,这引发了对自主性和安全性的担忧。