标签
本文提出HT-GRPO,一种面向扩散多模态大语言模型的层次化强化学习方法,它采用先素描后绘制的训练方案和层次化信用分配机制,以提升图像生成质量和奖励对齐效果。
OpenAI 研究提出分层强化学习方法,其中智能体将复杂任务分解为高级操作序列而非低级操作,通过将搜索复杂度从数千步降低到数十步,显著提高长视野任务的效率。