AI安全需要社会科学家
摘要
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。
我们撰写了一篇论文,主张长期AI安全研究需要社会科学家参与,以确保AI对齐算法在实际应用中成功。将高级AI系统与人类价值观妥善对齐需要解决许多与人类理性心理学、情感和偏差相关的不确定性。本论文的目的是促进机器学习和社会科学研究人员之间的进一步合作,我们计划在OpenAI聘请社会科学家全职从事这项工作。
查看缓存全文
缓存时间: 2026/04/20 14:46
# AI安全需要社会科学家
来源:https://openai.com/index/ai-safety-needs-social-scientists/
长期人工智能(AI)安全的目标是确保先进的AI系统与人类价值观保持一致——使其可靠地做人们想要它们做的事情。在OpenAI,我们希望通过向人们提问关于他们的想法、在这些数据上训练机器学习(ML)模型,以及优化AI系统根据这些学到的模型表现良好来实现这一点。这项研究的例子包括[从人类偏好中学习](https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/)、[通过辩论实现AI安全](https://blog.openai.com/debate/)和[通过迭代放大学习复杂目标](https://blog.openai.com/amplifying-ai-training/)。
不幸的是,人们对其价值观问题的回答可能不可靠。人类的知识和推理能力有限,并表现出各种认知偏差和伦理信念,经过反思后会发现这些信念存在不一致。我们预期,不同的提问方式会以不同的方式与人类偏差相互作用,产生更高或更低质量的答案。例如,关于某项行为有多错误的判断可能会因为问题中是否出现"道德"这个词而有所不同,如果任务足够复杂,人们在赌博选择中可能会做出不一致的选择。
我们有几种方法试图针对人类价值观背后的推理,包括[放大](https://blog.openai.com/amplifying-ai-training/)和[辩论](https://blog.openai.com/debate/),但不知道它们在真实人群和现实情况下的表现。如果对齐算法的问题仅在关于复杂价值问题的自然语言讨论中出现,当前的ML可能太弱而无法发现这个问题。
为了避免ML的局限性,我们建议进行完全由人组成的实验,用真人扮演那些AI代理的角色来取代ML代理。例如,AI对齐的[辩论](https://blog.openai.com/debate/)方法涉及一个有两个AI辩手和一个人类评判员的游戏;我们可以改用两个人类辩手和一个人类评判员。人类可以就我们喜欢的任何问题进行辩论,在人类案例中学到的经验教训可以转移到ML中。
相似文章
AI安全与对齐
文章讨论了对AI安全与对齐的担忧,随着AI变得更智能并融入社会,文章引用了Anthropic呼吁暂停以应对潜在的灾难性风险。
通过辩论实现AI安全
OpenAI提出了一种新颖的AI安全方法,其中两个AI代理相互辩论,而人类评判员评估他们的论证,这使人类能够监督行为过于复杂而难以直接理解的AI系统。该方法利用辩论和对抗性推理来使先进AI与人类价值观和偏好保持一致。
为什么负责任的AI开发需要在安全问题上进行合作
OpenAI发布了一份政策研究论文,确定了四项战略来改进行业在AI安全规范方面的合作:传达风险/收益、技术协作、提高透明度和激励标准。该分析论述了竞争压力如何可能导致对安全性的投资不足,并提出了协调激励措施以促进安全AI开发的机制。
OpenAI 安全实践
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
我们的AI安全方法论
OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。