弱到强的泛化

OpenAI Blog 2023/12/14 00:00 论文

ai-alignment superintelligence rlhf safety superalignment weak-supervision

摘要

OpenAI的Superalignment团队介绍了弱到强的泛化，这是一个新的研究方向，用于通过解决能力较弱的人类监督者如何可靠地控制和引导智能远超自身的AI系统这一根本性问题，来实证对齐超人类AI模型。

我们为超级对齐提出了一个新的研究方向，并取得了初步的成果：我们能否利用深度学习的泛化特性，用较弱的监督者来控制强大的模型？

查看缓存全文

缓存时间: 2026/04/20 14:54

# 弱到强的泛化能力来源：https://openai.com/index/weak-to-strong-generalization/ 我们相信，超级智能——远超人类的AI——可能在未来十年内被开发出来。然而，我们仍然不知道如何可靠地引导和控制超人类AI系统。解决这个问题对于确保即使是未来最先进的AI系统也保持安全和对人类有益至关重要。我们在今年早些时候成立了[超级对齐团队](https://openai.com/superalignment/)来解决超级智能对齐的问题。今天，我们发布了该团队的第一篇论文，介绍了一个用于经验性对齐超人类模型的新研究方向。当前的对齐方法，如人类反馈强化学习（RLHF），依赖于人类监督。然而，未来的AI系统将能够执行极其复杂和富有创意的行为，这将使人类很难可靠地监督它们。例如，超人类模型可能能够编写数百万行新颖的——且可能危险的——计算机代码，即使是专家人类也很难理解。相对于超人类AI模型，人类将成为"弱监督者"。这是AGI对齐的核心挑战：弱监督者如何才能信任和控制实力大得多的模型？

弱到强的泛化

相似文章

Superalignment Fast Grants

@AnthropicAI: Anthropic Fellows 的最新研究：开发自动化对齐研究员。我们进行了一项实验，以了解 Cla…

理解与防止失调泛化

我们的对齐研究方法

2026年4月14日 | 对齐研究 | 自动化对齐研究者：利用大语言模型扩展可扩展监督

提交意见反馈