transition-aware

#transition-aware

ReCrit：面向科学批评推理的过渡感知强化学习

arXiv cs.LG ↗ · 2026-05-20 缓存

ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架，将初始到批评行为分解为四个象限（Correction、Sycophancy、Robustness、Boundary），并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。

0 人收藏 0 人点赞