通过迭代放大学习复杂目标

OpenAI Blog 2018/10/22 07:00 论文

摘要

OpenAI 提出了迭代放大方法，用于训练 AI 系统处理复杂任务，通过递归地将任务分解为人类可以判断和解决的更小子任务，从零开始通过迭代组合构建训练信号。

我们提出了一种名为迭代放大的 AI 安全技术，它使我们能够指定超越人类规模的复杂行为和目标，方法是演示如何将任务分解为更简单的子任务，而不是通过提供标注数据或奖励函数。尽管这个想法仍处于非常早期阶段，我们目前仅在简单的玩具算法领域完成了实验，但我们决定在其初步状态下呈现它，因为我们认为它可能会成为一种可扩展的 AI 安全方法。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# 通过迭代放大学习复杂目标来源：https://openai.com/index/learning-complex-goals-with-iterated-amplification/ 迭代放大是一种为后续任务类型生成训练信号的方法，其前提是某些假设成立。具体来说，尽管人类无法直接完成或评判整个任务，但我们假设人类可以在给定任务的一部分时，识别出它所由的清晰的较小组件。例如，在网络计算机示例中，人类可以将"防护一组服务器和路由器"分解为"考虑对服务器的攻击"、"考虑对路由器的攻击"以及"考虑前两种攻击如何相互作用"。此外，我们假设人类可以完成任务的极小实例，比如"识别日志文件中特定行是否可疑"。如果这两个前提成立，那么我们可以利用人类来协调其组合，从小任务的人类训练信号构建大任务的训练信号。在我们的放大实现中，我们首先采样小型子任务，通过从能够完成这些小任务的人类那里收集演示来训练 AI 系统。然后我们开始采样稍微更大的任务，通过要求人类将这些任务分解成小块来解决这些任务，而这些小块现在可以由前一步训练的 AI 系统来解决。我们使用在人类帮助下获得的这些稍难任务的解决方案，作为训练信号来直接训练 AI 系统解决这第二级任务（无需人类帮助）。然后我们继续处理进一步的复合任务，在此过程中迭代构建训练信号。如果流程有效，最终结果是一个完全自动化的系统，尽管最初没有这些复合任务的直接训练信号，但仍能解决高度复合的任务。这个流程在某种程度上类似于[专家迭代](https://arxiv.org/pdf/1705.08439.pdf)（[AlphaGo Zero](https://www.nature.com/articles/nature24270) 中使用的方法），不同之处在于专家迭代强化现有的训练信号，而迭代放大从零开始构建训练信号。它也与[多种](https://arxiv.org/pdf/1807.04640.pdf)[最近的](https://people.eecs.berkeley.edu/~dawnsong/papers/iclr_2017_recursion.pdf)[学习算法](https://arxiv.org/abs/1611.02401)有共同点，这些算法在测试时使用即时问题分解来解决问题，但不同之处在于它在没有先前训练信号的设置中运作。

通过迭代放大学习复杂目标

相似文章

学习层级结构

从人类偏好中学习

学习交流

为 AGI 及其未来做好准备

认知放大器：争夺你大脑的战斗已经打响

提交意见反馈