hierarchical-reinforcement-learning

#hierarchical-reinforcement-learning

先素描后绘制：面向扩散多模态大语言模型的层次化强化学习

arXiv cs.AI ↗ · 2026-05-19 缓存

本文提出HT-GRPO，一种面向扩散多模态大语言模型的层次化强化学习方法，它采用先素描后绘制的训练方案和层次化信用分配机制，以提升图像生成质量和奖励对齐效果。

0 人收藏 0 人点赞

#hierarchical-reinforcement-learning

OpenAI Blog ↗ · 2017-10-26 缓存

OpenAI 研究提出分层强化学习方法，其中智能体将复杂任务分解为高级操作序列而非低级操作，通过将搜索复杂度从数千步降低到数十步，显著提高长视野任务的效率。

0 人收藏 0 人点赞