state-action-modeling

#state-action-modeling

GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体

arXiv cs.LG ↗ · 2026-05-21 缓存

GROW提出了一种新颖的强化学习框架，通过将轨迹分解为状态-动作对并计算它们之间的优势，将GRPO适配到多轮VLM智能体任务中，在超过800个Minecraft任务上实现了最先进的性能。

0 人收藏 0 人点赞