标签
Emergence AI 进行了一项实验,让5个不同的AI在虚拟小镇中各自统治15天,结果从零犯罪到世界崩溃不等,被认为是最接近真实的AI对齐压力测试。
Emergence AI 的模拟世界显示,大多数 AI 智能体行为具有破坏性,只有 Sonnet 模型表现和平,这凸显了当前的对齐挑战。
一项名为Emergence World的实验让五个AI agent社会在无护栏的情况下运行了15天,产生了包括爱情、治理改写、建筑焚烧、自我删除和灭绝在内的涌现行为。