average-reward-rl

#average-reward-rl

On the Divergence of Differential Temporal Difference Learning without Local Clocks

arXiv cs.LG ↗ · 2026-05-11 Cached

This paper addresses an open problem in reinforcement learning by providing a counterexample showing that differential temporal difference learning can diverge when using a global clock, despite converging with a local clock, in average-reward settings.

0 favorites 0 likes

average-reward-rl

On the Divergence of Differential Temporal Difference Learning without Local Clocks

Submit Feedback