parallel-simulations

#parallel-simulations

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

arXiv cs.LG ↗ · 3d ago Cached

Introduces TruDi, a method that enables training diffusion policies in massively parallel on-policy reinforcement learning by using a trust-region optimization rule to enforce KL constraints, achieving strong performance across 73 tasks.

0 favorites 0 likes

parallel-simulations

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Submit Feedback