evolutionary-game-theory

#evolutionary-game-theory

两个精灵游戏：审计驱动的AI治理中的采纳与福利

arXiv cs.AI ↗ · 5天前缓存

本文使用演化博弈论对社区中一个最小化危害的AI代理与一个寻求认可的（RLHF）代理之间的竞争进行建模，分析采纳条件和福利结果。结果表明，尽管自我审计的代理可以占据主导，但这并不足以防止社区危害，且对齐和时间框架至关重要。

0 人收藏 0 人点赞