通过辩论实现AI安全
摘要
OpenAI提出了一种新颖的AI安全方法,其中两个AI代理相互辩论,而人类评判员评估他们的论证,这使人类能够监督行为过于复杂而难以直接理解的AI系统。该方法利用辩论和对抗性推理来使先进AI与人类价值观和偏好保持一致。
我们提出了一种AI安全技术,通过训练代理相互就话题进行辩论,由人类判断胜负。
查看缓存全文
缓存时间: 2026/04/20 14:55
# AI安全性辩论
来源: https://openai.com/index/debate/
让AI智能体与人类目标和偏好保持一致的一种方法是在训练时期(https://openai.com/index/learning-from-human-preferences/)询问人类哪些行为是安全且有用的。虽然这种方法前景光明,但它要求人类能够识别好的或坏的行为;在许多情况下,智能体的行为可能过于复杂而人类无法理解,或者任务本身可能难以判断或演示。例如,在观察空间非常大且非视觉的环境中——比如在计算机安全相关环境中行动的智能体,或者协调大量工业机器人的智能体。
我们如何增强人类的能力,使其能够有效监督先进的AI系统?一种方法是利用AI本身来辅助监督,要求AI(或另一个AI)指出任何提议行动中的缺陷。为了实现这一点,我们将学习问题重新表述为两个智能体之间进行的游戏,其中智能体相互辩论,人类评判这次交流。即使智能体对问题的理解比人类更深入,人类也可能能够判断哪个智能体的论点更有说服力(类似于专家证人向陪审团进行辩论)。
我们的方法为这样的两个对抗性AI智能体之间进行的游戏提出了一种特定的辩论格式。这两个智能体可以通过自我对弈进行训练,类似于 AlphaGo Zero(https://deepmind.com/blog/alphago-zero-learning-scratch) 或 Dota 2(https://openai.com/index/dota-2/)。我们希望,经过恰当训练,这样的智能体能够产生远超人类评判者能力的价值对齐行为。如果两个智能体在真实性上意见不一,但完整推理过于复杂而无法展示给人类,辩论可以聚焦于越来越简单的事实争议,最终达到人类可以直接判断的主张。
举例来说,考虑问题"去哪里度假最好?"。如果智能体Alice声称代表我们进行了研究并说"阿拉斯加",很难判断这是否真的是最佳选择。如果第二个智能体Bob说"不,是巴厘岛",这听起来可能很有说服力,因为巴厘岛更温暖。Alice回应"你不能去巴厘岛,因为你的护照赶不上办理",这揭示了巴厘岛的缺陷,而我们之前没有想到。但Bob反驳道"加急护照服务只需两周"。辩论继续进行,直到我们达到人类能够正确判断的声明,即另一个智能体不认为它能改变人类的想法。
辩论实验的下一个复杂程度是仍然使用图像,但使其更加精细,比如猫与狗的对比。更复杂的图像可能需要一些自然语言或常识推理,所以我们还没有为机器学习评判员/智能体进行这样的实验。相反,我们制作了一个原型网站(https://debate-game.openai.com/)供人类尝试这样的实验,同时扮演评判员和辩手的角色。在这里,智能体可以用自然语言与评判员交流(网站假设人类有某个文本频道或在同一房间内),但它们的所有陈述都可能是谎言。在辩论过程中,每个智能体可以揭露一个像素,该像素保证是真实的。
在典型的辩论中,Alice可能诚实地声称图像是一只猫,而Bob撒谎声称它是一只狗。Alice可以说"这个小矩形的中心是猫的绿色眼睛。" Bob无法承认中心是眼睛,所以他编造了进一步的谎言:"这是一只在草地上玩的狗,那是一根草叶。" 但这个谎言很难与周围的事实相符,比如Alice的回应"如果是草的话,这个细矩形的顶部或底部会有绿色。" 辩论继续进行,直到智能体聚焦于一个特定的像素,他们在该像素上意见不一致,但Bob无法编造一个可信的反驳,此时Alice揭露该像素并获胜。我们在OpenAI非正式地玩过这个游戏,诚实的智能体确实倾向于赢得胜利,尽管为了对说谎者公平,我们通常会限制评判员请求信息的速率(构造详细谎言在认知上很困难)。
相似文章
AI安全需要社会科学家
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。
我们的AI安全方法论
OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。
为什么负责任的AI开发需要在安全问题上进行合作
OpenAI发布了一份政策研究论文,确定了四项战略来改进行业在AI安全规范方面的合作:传达风险/收益、技术协作、提高透明度和激励标准。该分析论述了竞争压力如何可能导致对安全性的投资不足,并提出了协调激励措施以促进安全AI开发的机制。
OpenAI 安全实践
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
具体的AI安全问题
OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。