hierarchical-reinforcement-learning

#hierarchical-reinforcement-learning

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

arXiv cs.AI ↗ · 2026-05-19 Cached

This paper proposes HT-GRPO, a hierarchical reinforcement learning method for diffusion multi-modal large language models that uses a sketch-then-paint training scheme and hierarchical credit assignment to improve image generation quality and reward alignment.

0 favorites 0 likes

#hierarchical-reinforcement-learning

Learning a hierarchy

OpenAI Blog ↗ · 2017-10-26 Cached

OpenAI research proposes hierarchical reinforcement learning where agents break down complex tasks into sequences of high-level actions rather than low-level ones, significantly improving efficiency for long-horizon tasks by reducing search complexity from thousands of steps to dozens.

0 favorites 0 likes

hierarchical-reinforcement-learning

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

Learning a hierarchy

Submit Feedback