标签
提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。
本文提出了一种方法,利用较弱模型提供的错配错误草稿,通过GRPO在较强学习器中引发更优推理,在Mathstral-7B上的MATH-500和AIME基准测试中取得了最先进的结果。
一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。
Anthropic Fellows 的研究展示了一项使用 Claude Opus 4.6 加速对齐研究的实验,该研究关注弱到强监督,探索较弱的 AI 模型是否能在训练过程中有效监督较强的模型。