sparse-reward

#sparse-reward

面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形

arXiv cs.LG ↗ · 3天前缓存

提出ULPS，一种将校准的LLM集成到RL训练中的框架，通过不确定性调制的引导和基于A*的符号轨迹，在MiniGrid-UnlockPickup上实现了更高的成功率和样本效率。

0 人收藏 0 人点赞