BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
state-action-modeling
标签
Cards
List
#state-action-modeling
GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体
arXiv cs.LG
↗
· 2026-05-21
缓存
GROW提出了一种新颖的强化学习框架,通过将轨迹分解为状态-动作对并计算它们之间的优势,将GRPO适配到多轮VLM智能体任务中,在超过800个Minecraft任务上实现了最先进的性能。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交