reward-attribution

#reward-attribution

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

arXiv cs.AI ↗ · 2026-06-02 Cached

Introduces delayed per-step reward attribution with eligibility gating for reinforcement learning in multi-agent language model interactions, achieving first place in the MindGames Arena benchmark at NeurIPS 2025.

0 favorites 0 likes

reward-attribution

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Submit Feedback