model-exploitation

#model-exploitation

Imperfect World Models are Exploitable

arXiv cs.AI ↗ · 2026-05-18 Cached

This paper formalizes model exploitation in reinforcement learning, proving it is unavoidable in large policy sets, and establishes a theoretical bridge between reward hacking and model exploitation.

0 favorites 0 likes

model-exploitation

Imperfect World Models are Exploitable

Submit Feedback