通过辩论实现AI安全

OpenAI Blog 2018/05/03 07:00 论文

摘要

OpenAI提出了一种新颖的AI安全方法，其中两个AI代理相互辩论，而人类评判员评估他们的论证，这使人类能够监督行为过于复杂而难以直接理解的AI系统。该方法利用辩论和对抗性推理来使先进AI与人类价值观和偏好保持一致。

我们提出了一种AI安全技术，通过训练代理相互就话题进行辩论，由人类判断胜负。

查看缓存全文

缓存时间: 2026/04/20 14:55

# AI安全性辩论来源: https://openai.com/index/debate/ 让AI智能体与人类目标和偏好保持一致的一种方法是在训练时期(https://openai.com/index/learning-from-human-preferences/)询问人类哪些行为是安全且有用的。虽然这种方法前景光明，但它要求人类能够识别好的或坏的行为；在许多情况下，智能体的行为可能过于复杂而人类无法理解，或者任务本身可能难以判断或演示。例如，在观察空间非常大且非视觉的环境中——比如在计算机安全相关环境中行动的智能体，或者协调大量工业机器人的智能体。我们如何增强人类的能力，使其能够有效监督先进的AI系统？一种方法是利用AI本身来辅助监督，要求AI（或另一个AI）指出任何提议行动中的缺陷。为了实现这一点，我们将学习问题重新表述为两个智能体之间进行的游戏，其中智能体相互辩论，人类评判这次交流。即使智能体对问题的理解比人类更深入，人类也可能能够判断哪个智能体的论点更有说服力（类似于专家证人向陪审团进行辩论）。我们的方法为这样的两个对抗性AI智能体之间进行的游戏提出了一种特定的辩论格式。这两个智能体可以通过自我对弈进行训练，类似于 AlphaGo Zero(https://deepmind.com/blog/alphago-zero-learning-scratch) 或 Dota 2(https://openai.com/index/dota-2/)。我们希望，经过恰当训练，这样的智能体能够产生远超人类评判者能力的价值对齐行为。如果两个智能体在真实性上意见不一，但完整推理过于复杂而无法展示给人类，辩论可以聚焦于越来越简单的事实争议，最终达到人类可以直接判断的主张。举例来说，考虑问题"去哪里度假最好？"。如果智能体Alice声称代表我们进行了研究并说"阿拉斯加"，很难判断这是否真的是最佳选择。如果第二个智能体Bob说"不，是巴厘岛"，这听起来可能很有说服力，因为巴厘岛更温暖。Alice回应"你不能去巴厘岛，因为你的护照赶不上办理"，这揭示了巴厘岛的缺陷，而我们之前没有想到。但Bob反驳道"加急护照服务只需两周"。辩论继续进行，直到我们达到人类能够正确判断的声明，即另一个智能体不认为它能改变人类的想法。辩论实验的下一个复杂程度是仍然使用图像，但使其更加精细，比如猫与狗的对比。更复杂的图像可能需要一些自然语言或常识推理，所以我们还没有为机器学习评判员/智能体进行这样的实验。相反，我们制作了一个原型网站(https://debate-game.openai.com/)供人类尝试这样的实验，同时扮演评判员和辩手的角色。在这里，智能体可以用自然语言与评判员交流（网站假设人类有某个文本频道或在同一房间内），但它们的所有陈述都可能是谎言。在辩论过程中，每个智能体可以揭露一个像素，该像素保证是真实的。在典型的辩论中，Alice可能诚实地声称图像是一只猫，而Bob撒谎声称它是一只狗。Alice可以说"这个小矩形的中心是猫的绿色眼睛。" Bob无法承认中心是眼睛，所以他编造了进一步的谎言："这是一只在草地上玩的狗，那是一根草叶。" 但这个谎言很难与周围的事实相符，比如Alice的回应"如果是草的话，这个细矩形的顶部或底部会有绿色。" 辩论继续进行，直到智能体聚焦于一个特定的像素，他们在该像素上意见不一致，但Bob无法编造一个可信的反驳，此时Alice揭露该像素并获胜。我们在OpenAI非正式地玩过这个游戏，诚实的智能体确实倾向于赢得胜利，尽管为了对说谎者公平，我们通常会限制评判员请求信息的速率（构造详细谎言在认知上很困难）。

通过辩论实现AI安全

相似文章

AI安全需要社会科学家

我们的AI安全方法论

为什么负责任的AI开发需要在安全问题上进行合作

OpenAI 安全实践

具体的AI安全问题

提交意见反馈