policy-shaping

#policy-shaping

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

arXiv cs.LG ↗ · 3d ago Cached

Proposes ULPS, a framework integrating a calibrated LLM into RL training with uncertainty-modulated guidance and A*-based symbolic trajectories, achieving improved success rate and sample efficiency on MiniGrid-UnlockPickup.

0 favorites 0 likes

policy-shaping

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

Submit Feedback