sparse-reward

标签

Cards List
#sparse-reward

面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形

arXiv cs.LG · 3天前 缓存

提出ULPS,一种将校准的LLM集成到RL训练中的框架,通过不确定性调制的引导和基于A*的符号轨迹,在MiniGrid-UnlockPickup上实现了更高的成功率和样本效率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈