internalization

#internalization

ICRL：通过强化学习内化自我批判

arXiv cs.AI ↗ · 2026-05-18 缓存

本文介绍了ICRL框架，该框架联合训练求解器和批判器，通过强化学习内化批判指导，使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计，在智能体和数学推理任务上比GRPO提高了6-7个点。

0 人收藏 0 人点赞