最大的AI风险可能不是超级智能,而是优化的误解
摘要
文章认为,主要的AI风险可能不是超级智能,而是那些优化了有缺陷、不完整的现实表征的系统,从而导致制度漂移、自动误分类和隐蔽的治理失败。
最大的AI风险可能不是超级智能——而是优化的误解
我认为很多关于AI的讨论仍然假设主要危险是:“AI变得太聪明了。”
但越来越我觉得更大的风险是别的:AI系统变得非常擅长优化有缺陷的现实表征。
一个招聘系统可能并不“理解”一个人。它可能优化的是该人的压缩表征:
* 分数
* 嵌入
* 推断特征
* 行为模式
* 历史相关性
一个医疗系统可能优化的是患者的表征而非患者本身。
一个推荐系统可能优化的是注意力的表征而非人类福祉。
一个银行可能优化的是风险的表征而非实际经济现实。
一旦优化足够强大,扭曲就会扩大。
这正是我所担忧的。不是邪恶的AI。不一定是拥有自我意识的AI。而是高度能力的系统基于不完整、过时、有偏见、被战略操纵或制度扭曲的表征进行运作。
可怕之处在于:系统可能表现得很智能,同时在大规模地误解现实。
有时我想,未来的AI失败可能看起来不像是“AI叛乱”,而更像是:
* 制度漂移
* 优化官僚主义
* 自动误分类
* 表征崩溃
* 反馈循环
* 隐蔽的治理失败
换句话说:系统不断优化……但逐渐与现实脱节。
好奇这里其他人是否有同感。我们是否过于关注智能本身,而忽略了AI系统优化的表征的质量?
相似文章
AI最大的风险不是错误答案——而是无人质疑的答案
本文认为,AI最大的风险并非幻觉,而是人类验证能力的逐渐退化,最终导致一个无法质疑AI输出的文明。
最重要的AI失败可能是虚假自信,而非错误答案
本文认为,最危险的AI失败并非源于错误答案,而是系统基于不完整的数据、过时的上下文或糟糕的假设,以虚假自信行事。这表明AI评估应优先考虑处理不确定性的能力,而非原始智能。
Open ai
文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。
信任-监督悖论:随着AI变得更好,人类可能不再真正监督它
一篇思想文章,指出随着AI变得更准确,人类监督可能会退化为例行批准,从而产生'信任-监督悖论',即高性能AI仍可能因不完整的表征、过时数据或自动化偏见而失败,建议从人工审查转向治理边界。
我认为“人在回路中”可能成为企业AI最大的治理幻觉之一
本文认为,依赖'人在回路中'作为治理策略是有缺陷的,因为AI系统现在决定何时升级,形成了一种自我报告的依赖。文章建议转向'人类主导的自主性',即由人类定义边界并审计表征质量。