hierarchical-reinforcement-learning

标签

Cards List
#hierarchical-reinforcement-learning

先素描后绘制:面向扩散多模态大语言模型的层次化强化学习

arXiv cs.AI · 2026-05-19 缓存

本文提出HT-GRPO,一种面向扩散多模态大语言模型的层次化强化学习方法,它采用先素描后绘制的训练方案和层次化信用分配机制,以提升图像生成质量和奖励对齐效果。

0 人收藏 0 人点赞
#hierarchical-reinforcement-learning

学习层级结构

OpenAI Blog · 2017-10-26 缓存

OpenAI 研究提出分层强化学习方法,其中智能体将复杂任务分解为高级操作序列而非低级操作,通过将搜索复杂度从数千步降低到数十步,显著提高长视野任务的效率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈