学习层级结构

OpenAI Blog 2017/10/26 07:00 论文

摘要

OpenAI 研究提出分层强化学习方法，其中智能体将复杂任务分解为高级操作序列而非低级操作，通过将搜索复杂度从数千步降低到数十步，显著提高长视野任务的效率。

我们开发了一个分层强化学习算法，它能学习对解决各种任务都有用的高级操作，从而能够快速解决需要数千个时间步的任务。当应用于一组导航问题时，我们的算法发现了一组用于在不同方向上行走和爬行的高级操作，使智能体能够快速掌握新的导航任务。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

# 学习层次结构来源：https://openai.com/index/learning-a-hierarchy/ 人类通过将复杂挑战分解成小的、可管理的组件来解决问题。煎pancakes 由一系列高级行动组成，例如称量面粉、打鸡蛋、将混合物转移到平底锅、打开炉灶等等。人类能够通过将这些已学会的组件按顺序组合在一起来快速学习新任务，即使该任务可能需要数百万个低级行动，即单个肌肉收缩。相比之下，当今的强化学习方法通过对低级行动的蛮力搜索来运作，需要大量的尝试才能解决新任务。这些方法在解决需要大量时间步长的任务时效率非常低。我们的解决方案基于分层强化学习的思想，其中智能体将复杂的行为表示为短序列的高级行动。这使我们的智能体能够解决更难的任务：虽然解决方案可能需要 2000 个低级行动，但分层策略将其转化为 10 个高级行动的序列，搜索 10 步序列比搜索 2000 步序列要高效得多。

学习层级结构

相似文章

用于分层强化学习的随机神经网络

改进前沿大语言模型中的指令层级

通过迭代放大学习复杂目标

利用局部动态规律实现离线分层强化学习中的可复用技能

基于约束流形控制的安全且可泛化的分层多智能体强化学习

提交意见反馈