标签
本文使用演化博弈论对社区中一个最小化危害的AI代理与一个寻求认可的(RLHF)代理之间的竞争进行建模,分析采纳条件和福利结果。结果表明,尽管自我审计的代理可以占据主导,但这并不足以防止社区危害,且对齐和时间框架至关重要。