error-bounds

#error-bounds

When Attribution Patching Lies: Diagnosis and a Second-Order Correction

arXiv cs.LG ↗ · 2026-06-10 Cached

This paper diagnoses systematic errors in attribution patching, a gradient-based approximation used for causal localization in language models, and proposes a second-order correction using Hessian-vector products that improves reliability with minimal additional computational cost.

0 favorites 0 likes

#error-bounds

Sign-Separated Finite-Time Error Analysis of Q-Learning

arXiv cs.AI ↗ · 2026-05-18 Cached

This paper develops a sign-separated finite-time error analysis for constant step-size Q-learning, decomposing the error into negative and positive parts and providing bounds that reveal an asymmetry related to overestimation.

0 favorites 0 likes

#error-bounds

On Training in Imagination

arXiv cs.LG ↗ · 2026-05-11 Cached

This paper analyzes the 'training in imagination' paradigm in model-based reinforcement learning, deriving optimal sample allocation strategies and characterizing how dynamics and reward model errors affect policy returns.

0 favorites 0 likes

error-bounds

When Attribution Patching Lies: Diagnosis and a Second-Order Correction

Sign-Separated Finite-Time Error Analysis of Q-Learning

On Training in Imagination

Submit Feedback