transition-aware

标签

Cards List
#transition-aware

ReCrit:面向科学批评推理的过渡感知强化学习

arXiv cs.LG · 2026-05-20 缓存

ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈